您当前的位置:首页 > 新闻资讯 > 科技

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

时间:2023-12-18 12:21:06  来源:IT之家  作者:

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。

即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决这一问题。

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

△ GPT-4V 的错误案例

现在,华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式,并基于这一范式构建了多模态大语言模型 Merlin(梅林)

Merlin(梅林)是亚瑟王传说中的一个传奇人物,以其强大的魔法和智慧而闻名于亚瑟王传说。传说中梅林拥有预见未来的能力,并对命运有着深刻的理解。

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

来看看它具体是如何做的?

注:人类可以根据当前观测状态来推理出即将或者接下来一段时间可能会发生的事件,我们将这一能力称为前瞻性思维。

一个简单的例子:

当你在电视上观看 NBA 球赛时,你可以根据场上不同球员的状态来判断接下来可能会出现的场景。

比如当一名进攻球员在持球突破防守人之后,我们有理由判断这名球员即将冲到篮下进行上篮或者灌篮。

再比如当持球人在三分线停下并面向篮筐时,我们则有理由预测这名球员即将进行三分射篮(当然也有可能是假动作为了晃开防守人进行突破)。

Merlin 大模型就可以进行此类预测。

方法介绍

为了探究如何赋予激发多模态大语言模型的前瞻性思维。

我们首先深入分析了人类是如何进行未来事件的预测的。

我们将人类进行未来事件的推理预测视为一个两阶段的系统。

首先一阶段我们会对当前场景进行观测,观测过程当中重点捕捉相关主体的动态线索,第二阶段我们的大脑会根据这个获取的动态线索来分析主体的行为模式(比如奔行走或者奔跑等)及行为意图,进而推理出即将可能发生的事件。

对标多模态大语言模型,我们认为第二阶段是可以较好地完成的,这得益于大语言模型强大的逻辑推理能力。

所以问题出在了第一阶段,也就是当前的多模态大语言模型难以成功捕获相关主体的动态信息,进而限制了其对于未来事件推理的能力。

得到这一结论之后,接下来我们要做就是探究如何让多模态大语言模型学会从当前观测中捕捉相关主体的动态线索信息

为了实现这一目标,一个直接的方案就是让多模态大语言模型学习预测下一帧的全部信息(也就是以重建下一帧为优化目标)。

不过这么做一方面学习难度较大,另一方面图像或者视频序列存在大量的冗余视觉信息,这并不利于模型学会捕获对应主体的动态信息。

基于上述分析,本文提出了一个以“轨迹”这一结构化表示作为优化目标来建立过去与未来之间的动态关联。我们认为以轨迹作为优化目标有以下几点好处:

(1)轨迹作为一种高度结构化的表征具有较强的信息凝练性,能够帮助模型有效地提取出主体在连续动作中的关键动态信息,从而减少了对冗余视觉信息的学习需求,计算成本更低。

(2)轨迹可以很自然地将过去和未来关联在一起,通过学习预测主体的轨迹,多模态大语言模型必须学会精确地关注对应的主体在不同帧中的对应位置,可以极大地增强模型多图多身份 (Id) 的对齐能力。

基于这些优点,我们设计了一个新型的学习框架,它专注于从多模态输入(如图像、视频和文本)中提取和理解主体的运动轨迹并进行预测。此框架具体如下:

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

受到当前主流 LLM 学习范式的启发,我们也构建了一个两阶段的学习范式,分别为前瞻思维预训练(Foresight Pre-TrAIning, FPT)以及前瞻思维指令微调(Foresight Instruction-Tuning, FIT)。

在 FPT 中,我们首先会输入包含数帧图片的视觉上下文 tokens 给模型,然后我们会给予相关主体的第一帧的初始观测(初始位置,表观描述或者是动作描述),接着我们要求模型需要根据初始观测来预测出对应主体的整条轨迹。

通过学习预测整条轨迹,模型必须学会正确关注多图中的对应主体并捕捉其动态信息。

而在 FIT 中,则会加入一些相关的 user prompt 来进行关于相关主体的对话。

值得注意的是,为了在这一阶段激发模型的前瞻性思维,我们也设计了一种以“轨迹”为核心的指令交互形式,我们将其称之为轨迹思维链技术(Trajectory Chain-of-Thought,T-CoT)。

具体来说,当和模型进行对话时,我们会要求模型将提及的相关主体的轨迹一并输出(如上图所示)。

通过输出整条轨迹,强制要求模型关注多图中的对应主体,为后续的未来事件推理提供足够的动态信息。更多方法细节,请阅读论文。

数据构造

设计好了我们的学习范式之后,接下来更重要的是构建合适的数据来让模型进行学习,我们基于现在市面上开源的数据精心构建了一整套多任务学习数据,数据分布具体如下:

主要包括 Caption,Referring,Detection,Tracking,Reasoning 以及 Dialogue 数据 * 表示数据只用于指令微调阶段(FIT)。

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

这里梅林首次使用了由 tracking 数据构造的 FPT 数据来赋予模型轨迹感知及预测能力。

另一方面,我们也提出了精确任务及输出形式提示(Precise Definition of Task Prompt and Answer Format)技术:

通过告诉大模型具体的任务以及输出形式来避免多任务学习之间的冲突以及对通用多模态能力的损害。

我们后续的实验也表明采用这一技术可以让大模型兼顾学习多任务专有能力以及通用多模态能力。

能力展示

结合上述两个学习过程以及构建的高质量数据,我们搭建了一个全新的通用多模态大语言模型,梅林(Merlin)。

Merlin 可以支持单图或多帧图像序列的输入,可以完成包括检测,跟踪,REC,REG 等一系列任务。

同时得益于我们提出的 FPT 以及 FIT,Merlin 展现了强大基于轨迹的未来推理能力,这里我们挑一些 cases 来展示 Merlin 的能力,更多的测试结果请阅读我们的论文以及后续开放的 demo。

实验分析

为了全面评测 Merlin 的各方面能力,我们设计了一系列性能比较试验以及性质探究实验,这里我们着重挑选几个有启发性的实验来进行分享,更多实验细节,请阅读我们的论文。

1、未来推理(Future Reasoning)评测

由于当前领域内并没有成熟的可以对多模态大语言模型进行评测的 benchmark,所以本工作基于 MMBench 搭建了一套新的 Future Reasoning Benchmark。

在这一 benchmark 上,Merlin 显著超越了现有的主流多模态大模型,展现了强大的未来推理能力。

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

2、轨迹关联及预测评测

由于 Merlin 将基于初始观测进行相关主体轨迹预测作为预训练中的一项核心学习目标,为了更全面的评测这一学习情况,我们重点选择了 tracking 这一下游任务来进行评测。

这是由于轨迹关联是 tracking 任务中的一个核心子任务,tracking 的评测指标可以一定程度上反应大模型的多图多 id 的对齐能力。

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

从结果可以看到 Merlin 作为一个通用多模态大语言模型,在 tarcking 任务上甚至超越了一些专家模型,同时值得注意的是这也是多模态大语言模型首次可以执行 tracking 相关的任务。

3、幻觉评测

幻觉问题是大模型领域的一个重要研究课题,由于多模态大语言模型引入了视觉模态,由主体描述和对应的视觉信息无法准确对齐而导致的 bias 也进一步带来了更加严重的幻觉。

本文中我们在 POPE 上对 Merlin 进行了幻觉评测来评估模型的图文之间的对齐能力。如下表所示:

可以看到,Merlin 展现了强大的抗幻觉能力,显著领先当前的主流多模态大语言模型,这证明了我们提出的前瞻性思维训练范式可以增强模型的“识图”能力,让模型减少对图片内容的误识别以及图文之间的不一致问题。

4、多模态综合性能评测

Merlin 同样在当前的主流多模态大语言模型综合能力(包括 MMBench 以及 MMVet)以及视觉问答能力(包括 GQA 以及 VisWiz)评测 Benchmark 上进行了评测。

评测结果表明 Merlin 都取得了非常有竞争力的结果,展现了 Merlin 强大的通用综合能力。

GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大

5、可视化分析

为了更直观的展现 Merlin 对于动态信息线索的捕捉情况,本文也进行了一个有趣的可视化实验,对于一个具体的对话问答,我们将模型输出的轨迹坐标的 word embedding 与多帧图片的视觉 tokens 之间的注意力图进行了可视化,如下图所示:

我们可以看到,模型输出的估计坐标的 word embedding 可以准确的关注到对应帧中的对应目标主体。

这个可视化结果也进一步证明了“轨迹”是一个非常好的中间表示来帮助多模态大语言模型建立起语言描述和多帧图像对应主体之间的动态关联。

这也从另一个角度解释了为什么 Merlin 具有强大的多模态综合能力以及抗幻觉能力。

思考和总结

Merlin 这一工作向我们展示了“轨迹”这一结构化表示在帮助多模态大语言模型具备前瞻性思维中的重要作用。

从这一点出发我们可以进一步思考回归框(bounding box)以及轨迹(trajectory)究竟在多模态大语言模型的学习中究竟起到了什么样的作用 ——

是作为一种中间形式还是可以作为一种单独的学习优化目标?

另一方面现有的坐标编码是否合理,有没有什么更加适配自然语言的表示形式呢?

我想这些目前都还没有标准答案,需要各位研究者们进一步深入地探索。最后希望 Merlin 这个工作能给多模态大模型社区带来一些新的思考和认知,也欢迎大家持续关注我们的工作,多多交流。

论文:

  • https://arxiv.org/pdf/2312.00589.pdf


Tags:GPT-4V   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
3 月 9 日央视的一档节目上,百度创始人、董事长兼 CEO 李彦宏指出,以后不会存在「程序员」这种职业了,因为只要会说话,人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】
2024-03-11  Search: GPT-4V  点击:(9)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: GPT-4V  点击:(69)  评论:(0)  加入收藏
GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发
新智元报道编辑:Aeneas【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。如今,GPT-4 Vision在语言...【详细内容】
2024-01-03  Search: GPT-4V  点击:(53)  评论:(0)  加入收藏
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
量子位 | 公众号 QbitAI谷歌扳回一局!在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GP...【详细内容】
2023-12-22  Search: GPT-4V  点击:(117)  评论:(0)  加入收藏
GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大
多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决...【详细内容】
2023-12-18  Search: GPT-4V  点击:(58)  评论:(0)  加入收藏
GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发
最近,GPT-4一直在默默更新,加入了多模态,语音交互等功能。但是与年初OpenAI每次发布的新功能,都能引得外界一阵惊呼的阵仗相比,现在GPT-4的声量似乎小了很多。不知道是不是担心自...【详细内容】
2023-10-17  Search: GPT-4V  点击:(166)  评论:(0)  加入收藏
▌简易百科推荐
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(6)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(6)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(3)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(4)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02    新智元  Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02    IT之家  Tags:Chrome   点击:(7)  评论:(0)  加入收藏
哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
【新智元导读】OpenAI 机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人 Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。此前,...【详细内容】
2024-04-01    IT之家  Tags:哥伦比亚   点击:(17)  评论:(0)  加入收藏
谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
IT之家 3 月 28 日消息,谷歌近日对其账户登录页面进行了重大更新,现在能够在用户登录谷歌账户时,使用 Windows Hello 作为身份验证方法。使用通行密钥,用户将不再局限于使用密码...【详细内容】
2024-03-29    IT之家  Tags:谷歌服务   点击:(15)  评论:(0)  加入收藏
GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
财联社3月28日讯(编辑 赵昊)今年1月,OpenAI推出了定制聊天机器人商店“GPTs”,以期为业务增添新的动力。但两个多月后,GPTs的吸引力仍然有限,很难达到公司CEO山姆·奥尔特曼...【详细内容】
2024-03-29    财联社  Tags:GPT   点击:(13)  评论:(0)  加入收藏
站内最新
站内热门
相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条