开云体育为提供可靠的视觉左证支柱-开云·kaiyun体育(中国大陆)官方网站登录入口

栏目分类

开云·kaiyun体育(中国大陆)官方网站登录入口: 供应; 求购; 公司; 产品; 展会; 新闻; 人才; 会员商务室

热点资讯

开云体育为提供可靠的视觉左证支柱-开云·kaiyun体育(中

云开体育照实很难吃到大 EP 的蛋糕-开云·kaiyun体育

开云体育上市的表率即是无抗生素残留-开云·kaiyun体育(

开云·kaiyun体育以至会在不同的阶段测试软件的不同效果-

云开体育最近有许多企业在积极探索东南亚阛阓-开云·kaiyu

开yun体育网制约了产物的后续迭代与优化升级-开云·kaiy

开云体育(中国)官方网站成交额2238.42万元-开云·ka

云开体育国检转债信用级别为“AA+”-开云·kaiyun体育

开云体育沪工转债信用级别为“A”-开云·kaiyun体育(中

开云体育(中国)官方网站片刻贴上＂胡润牌标签＂-开云·kai

你的位置：开云·kaiyun体育(中国大陆)官方网站登录入口 > 新闻 >

开云体育为提供可靠的视觉左证支柱-开云·kaiyun体育(中国大陆)官方网站登录入口

发布日期：2026-05-02 20:08 点击次数：142

跨模态因果对都，让机器更懂视觉左证！

来自中山大学、新加坡南洋理工大学等团队提议跨模态因果对都框架（CRA），通过因果滋扰和跨模态对都，显耀擢升时空定位的准确性与可解释性。

干系论文已被 CVPR 2025 罗致，代码已开源。

事情是这么的——

连年来跟着多模态大模子的发展，视频问答（VideoQA）任务——要求模子根据视频履行回答当然言语问题——性能显耀擢升。

然则，现存模子往往依赖西宾数据中的统计偏差（如言语关节词与谜底的乌有关联），而非确切的因果视觉左证，导致回答穷乏可解释性。

举个栗子～

举例下图中，当视频中出现"婴儿"和"女性"时，模子可能仅因二者高频共现而给出谜底，却忽略真实因果事件（如"女性抱起婴儿"）。

也便是说，诚然收尾答对了，但过程中模子选用的是造作的视觉依据。

针对访佛情况，为提供可靠的视觉左证支柱，视频问答定位（VideoQG）任务应时而生，要求模子同期输出谜底过火对应视频片断的时刻区间。

但现存才调靠近两大挑战：

多模态偏差：视频与言语中的欺凌身分（如高频关节词、短时视觉特征）导致模子学习乌有关联；

弱监督设施：标翔实频片断资本腾贵，现存模子依赖视频问答（VideoQA）的弱监督信号，难以精确定位。

以上便是 CRA 框架出生的布景。

此外，中山大学 HCP-Lab 团队已将关节的因果模块集成到开源因果框架 CausalVLR 中。

该框架是一个基于 PyTorch 的 python 开源器具包，用于因果关系发现，因果推理，为多样视觉言语推理任求完了来源进的因果学习算法。

三模块驱动因果推理

现存才调常因依赖于西宾数据中的统计偏差，导致模子无法准确识别与问题干系的因果视觉场景，进而产生不准确的时空定位收尾。

为克服这一问题，CRA 框架通过三个中枢模块完了了从噪声遏止、特征对都到因果关系建模的全经由优化。

该框架在 NextGQA 和 STAR 数据集上的实验收尾标明，CRA 大约显耀擢升模子的时空定位能力和因果推理的准确性，为视频问答定位任务提供了更可靠的时期经管有操办。

三个中枢模块具体伸开如下：

GSG：遏止噪声，聚焦关节帧

第一个，高斯平滑定位模块（GSG）。

GSG 模块通过自顺应高斯滤波去噪，精确臆测视频片断的时刻终止。

它的中枢功能，是基于跨模态着重力臆测时刻区间，通过自顺应高斯滤波去噪，生成鲁棒的视频片断特征。

时期亮点主要有仨：

1、跨模态着重力预备：欺诈 CLIP 视频特征与 RoBERTa 言语特征的交互，生成入手时刻着重力权重；

2、自顺应高斯滤波：引入可学习参数的高斯核，遏止时序上的不褂讪噪声（如无关布景帧），杰出关节事件区域（下图）；

3、动态阈值分割：根据平滑后的着重力散布，动态截取高反应区间，擢升定位精度。

消融实验败露，移除高斯滤波（GSG w/o GS）会导致 IoU@0.5 下落 2.2%（下表），讲解其对噪声遏止的关节作用。

△GSG 消融实验，其中 SGG w/o GS †暗示 GSG 在西宾过程中具有高斯平滑，但在推理过程中莫得高斯平滑 CMA：弱监督下的双向对都

第二个，交叉模态对都模块（CMA）。

CMA 模块欺诈双向对比学习，增强视频与问答特征的对都遵循。

它的中枢功能，是通过双向对比学习，对都视频片断特征与问答特征，增强跨模态一致性。

时期亮点有二：

双向 InfoNCE 亏本：从吞并批次中采样正 / 负样本，折柳对都视觉→言语和言语→视觉特征（公式 1-2）；

动态难样本挖掘：优先遴荐语义各异大的负样本，迫使模子关心细粒度因果关联。

移除 CMA 模块后，Acc@GQA 下落 2%，IoP@0.5 下落 2.2%（下表），突显其对弱监督西宾的迫切性。

ECI：堵截乌有因果链

第三个，显式因果滋扰模块（ECI）。

ECI 模块则通过前门和后门滋扰，摈斥多模态偏差，擢升因果一致性。

它的中枢功能，是针对视觉和言语模态折柳联想前门滋扰与后门滋扰，摈斥多模态欺凌身分。

言语后门滋扰：贯通问答语义结构图（如主谓宾关系），阻断关节词与谜底的乌有旅途；

视觉前门滋扰：以视频片断为中介变量，通过特征聚类模拟羼杂因子散布，重构因果链（公式 3-4）。

实验收尾败露，在 NextGQA 数据集上，去除了 Causal 模块后联系于 CRA 在 Acc@GQA 形成了 1.2% 的性能亏本。

实验收尾：多维度性能跳跃

在 NextGQA 数据团结，CRA 以 18.2% 高出 Temp [ CLIP ] （NG+）2.2%，且在使用 FrozenBiLM 大模子时仍保捏上风。

此外，IoP@0.5 达 28.5%，显耀优于基于 LLM 伪标注的 TimeCraft（27.8%），讲解其无需罕见数据的高效性。

在 STAR 数据团结，CRA 折柳以 26.8% 与 27.5% 的 Acc@GQA 分数在 Temp [ CLIP ] 和 FrozenBiLM 的 Backbone 下跳跃 NG+。

而通过统计弱监督视频定位的散布情况，沟通团队不错不雅察到 NG+ 局限于小区间的臆测，而 CRA 所臆测的区间与真实散布情况更合适。

综上，CRA 框架通过跨模态因果对都，初次在弱监督条款下完了了视频问答定位的高精度与可解释性。

现在，CRA 框架代码已开源。

沟通团队暗示，CRA 为视频意会提供了新的因果推理范式，或将推进自动驾驶、智能监控等限制的确凿 AI 应用。

论文地址：

https://arxiv.org/abs/2503.07635

CRA-GQA 仓库：

https://github.com/WissingChen/CRA-GQA

因果框架仓库：

https://github.com/HCPLab-SYSU/CausalVLR

— 完 —

学术投稿请于责任日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿履行‍

附上论文 / 风光主页通顺，以及商量容貌哦

咱们会（尽量）实时陈述你

一键关心 � � 点亮星标

科技前沿推崇逐日见

一键三连「点赞」「转发」「小心心」

宽宥在辩驳区留住你的念念法！开云体育

上一篇：开云·kaiyun体育以至会在不同的阶段测试软件的不同效果-开云·kaiyun体育(中国大陆)官方网站登录入口

下一篇：开云体育上市的表率即是无抗生素残留-开云·kaiyun体育(中国大陆)官方网站登录入口