您当前的位置:首页 > 电脑百科 > 人工智能

多模态大模型能力测评:Bard 是你需要的吗?

时间:2023-08-30 11:36:03  来源:机器之心  作者:

机器之心编辑部

为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny LVLM-eHub。

ChatGPT 之后,OpenAI 直播展示了 GPT-4 强大的支持 visual input 的多模态能力,虽然视觉输入目前还没大规模开放使用。随后学术界和工业界也纷纷把目光聚焦到多模态大模型(主要是视觉语言模型)上,比如学术界的 LLaMA-Adapter 和 MiniGPT-4,以及工业界最具代表的来自谷歌的 Bard,而且 Bard 已经后来居上开放大规模用户使用。但是学术界发布的模型大多只在部分多模态能力(少数相关数据集)上进行了评估,而且也缺少在真实用户体验上的性能对比。Bard 开放视觉输入之后也没有给出官方的多模态能力报告。

在此背景下,我们首先提出了多模态大模型多模态能力的全面评估框架 LVLM-eHub,整合了 6 大类多模态能力,基本涵盖大部分多模态场景,包括了 47 + 个相关数据集。同时发布了模型间能力对比的众包式用户评测平台多模态大模型竞技场,让真实用户来提问和投票哪个模型表现得更好。

LVLM-eHub 论文地址:

https://arxiv.org/abs/2306.09265

Multi-Modality Arena:https://Github.com/OpenGVLab/Multi-modality-Arena

项目网址:

http://lvlm-ehub.opengvlab.com/

在此基础上我们还将原有每个数据集精简到 50 个样本(随机采样),推出 Tiny LVLM-eHub,便于模型快速评估和迭代。设计了更加准确稳健并且与人类评估结果更加一致的评估方法,集成多样评估提示词下的 ChatGPT 评估结果(多数表决)。最后同时加入了更多多模态大模型,其中谷歌的 Bard 表现最为出色。

Tiny LVLM-eHub 论文地址:

https://arxiv.org/abs/2308.03729

Multimodal Chatbot Arena:http://vlarena.opengvlab.com

多模态能力与数据集

我们整合了 6 大类多模态能力:

a. 视觉感知(visual perception)

b. 视觉信息提取(visual knowledge acquisition)

c. 视觉推理(visual reasoning)

d. 视觉常识(visual commonsense)

e. 具身智能(Embodied intelligence)

f. 幻觉(Hallucination)

前两类涉及到基础的感知能力,中间两类上升到高层的推理,最后两类分别涉及到将大模型接入机器人后的更高层的计划和决策能力,和在大语言模型(LLM)上也很危险和棘手的幻觉问题。

具身智能是大模型能力的应用和拓展,未来发展潜力巨大,学术界和工业界方兴未艾。而幻觉问题是在将大模型推广应用过程中众多巨大风险点之一,需要大量的测试评估,以协助后续的改善和优化。

六大多模态能力结构图

多模态大模型竞技场

多模态大模型竞技场是一个模型间能力对比的众包式用户评测平台,与上述的在传统数据集上刷点相比,更能真实反映模型的用户体验。用户上传图片和提出相应问题之后,平台从后台模型库中随机采样两个模型。两个模型分别给出回答,然后用户可以投票表决哪个模型表现更佳。为确保公平,我们保证每个模型被采样的几率是相同的,而且只有在用户投票之后,我们才展示被采样模型的名称。流程样例见下图。

多模态大模型竞技场示意图

评估方法

评估方法示意图

LVLM-eHub 默认使用 word matching(只要真实答案出现在模型输出中,即判断为正确)来做快速自动评估。特别地,对于 VCR 数据集,为了更好地评估模型性能,我们采用了 multi-turn reasoning 评估方法:类似 least-to-most 提示方法,首先经过多轮的 ChatGPT 提出子问题和待评估模型给出回答,最后再回答目标问题。另外对于具身智能,我们目前完全采用人工的方式,从 Object Recognition、Spatial Relation、Conciseness、Reasonability 和 Executability 五个维度进行了全方位评估。

多提示词投票评估方法

Tiny LVLM-eHub 设计并采用了多提示次投票评估 评估方法,可以克服词匹配评估方法的缺陷,具体来说,词匹配在以下两个场景下都会失效:(1)模型输出中可能出现包括真实答案在内的多个答案;(2)模型输出与问题的参考答案在语义上是相同的,只是表述不同。

基于 ChatGPT 的多指令集成评估方法示意图

另外我们通过实验(结果见下表)发现我们提出的评估方法与人类评估结果更加一致。

CEE 评估方法和词匹配方法与人类评估一致性的比较

评估结果

在传统标准数据集(除了具身智能的其他 5 大类多模态能力)上,评估结果显示 InstructBLIP 表现最佳。通过对比模型训练数据集之间的差异,我们猜测这很可能是因为 InstructBLIP 是在 BLIP2 的基础上再在 13 个类似 VQA 的数据集上微调得到的,而这些微调数据集与上述 5 类多模态能力相应的数据集在任务和具体数据形式和内容上有很多相同点。反观在具身智能任务上,BLIP2 和 InstructBLIP 性能最差,而 LLaMA-Adapter-v2 和 LLaVA 表现最好,这很大程度上是因为后者两个模型都使用了专门的视觉语言指令遵循数据集进行指令微调。总之,大模型之所以在众多任务上泛化性能很好很大程度上是因为在训练或微调阶段见过相应任务或者相似数据,所以领域差距很小;而具身智能这种需要高层推理、计划乃至决策的任务需要 ChatGPT 或 GPT-4 那种逻辑性、计划性和可执行性更强的输出(这一点可以在下面 Bard 的评估结果上得到印证:Bard 的具身智能能力最好)。

LVLM-eHub 中八大模型在六大多模态能力上的性能图

截止目前,我们在多模态大模型竞技场平台收集了 2750 个有效样本(经过过滤),最新的模型分数和排名见下表。从真实用户体验上来看,InstructBLIP 虽然在传统标准数据集(除了具身智能的其他 5 大类多模态能力)上表现最好,但在 Elo 排名欠佳,而且 BLIP2 的用户评价最差。相应地,在经过 ChatGPT 优化过的指令遵循数据集上微调之后,模型输出更受用户青睐。我们看到,在高质量数据上指令微调后的模型 Otter-Image 居于榜首,在 Otter 模型的基础上实现了质的飞跃。

多模态竞技场模型排行榜

在 Tiny LVLM-eHub 上,Bard 在多项能力上表现出众,只是在关于物体形状和颜色的视觉常识和目标幻觉上表现欠佳。Bard 是 12 个模型中唯一的工业界闭源模型,因此不知道模型具体的大小、设计和训练数据集。相比之下,其他模型只有 7B-10B。当然我们目前的测试大都是单轮问答,而 Bard 支持多轮对话。相信 Bard 的能力不止于此,仍需要挖掘。

Bard Demo

Bard 很好地理解了图像的不寻常之处,拥有类似于人类的理解能力。它甚至可以根据图像做出关联,指出生活与艺术之间的关系。

Bard 相对较好地理解了复杂的食物链,并且回答了问题(在图中以蓝色标出),同时给出了超出问题范围的对食物链的更详细解释。

Bard 具有一定的多模态推理能力,可以正确回答那些需要根据图表(蓝色部分)进行一些推理的问题,但在准确识别图片中的详细信息方面仍然存在一些问题(红色部分)。

Bard 可以相对准确地以文字的形式生成目标检框。

与 GPT-4 类似,Bard 具有将手绘的网页设计转化为 html 代码的能力,并且更准确地识别网页的布局,甚至成功地将 “照片” 部分识别为需要导入图像的区域。

对于小学数学问题,Bard 错误地理解了问题,并且尽管之后的计算过程是正确的,但它还是给出了错误的答案。

Bard 仍然容易受到幻觉问题的影响。我们发现,如果在提示中提供了某些虚假的线索,Bard 仍然会在其基础上胡言乱语。

我们手动在图像上添加了一条红色的对角十字,然而 Bard 回答说图片中没有红色的物体。此外,奇怪的是,Bard 回答这个问题时好像完全忽略了我们添加的红色十字标记。

未来工作

尽管在 (Tiny) LVLM-eHub 中的评估是全面的,但我们仅评估了各种 LVLM 的多模态能力边界。事实上,LVLM 的评估还必须考虑其他关键因素,如内容安全、偏见和种族歧视等。由于这些模型生成的有偏见或有害内容可能造成潜在危害,因此必须彻底评估 LVLM 生成安全和无偏见内容的能力,以避免持续传播有害刻板印象或歧视态度。特别是,在进一步探索 LVLM 的发展时,应考虑如何增强对视觉常识的理解,并减轻幻觉问题。



Tags:多模态大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
全面转向生成式AI,苹果推出300亿参数多模态大模型
相较于英伟达、微软等大型科技股,苹果今年的表现令人失望不已,股价年内跌逾10%,且失去了“全球市值最高公司”的宝座。背后原因很简单,苹果在这场人工智能(AI)竞赛中落伍了。为...【详细内容】
2024-03-18  Search: 多模态大模型  点击:(12)  评论:(0)  加入收藏
简易百科:什么是多模态大模型?
简易百科:什么是多模态大模型?随着人工智能技术的不断发展,多模态大模型作为一种新型的机器学习技术,逐渐成为人工智能领域的热点话题。多模态大模型能够处理多种媒体数据,如文本...【详细内容】
2024-01-29  Search: 多模态大模型  点击:(174)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: 多模态大模型  点击:(72)  评论:(0)  加入收藏
多模态大模型活跃,A股探底止跌
每经记者:刘明涛 每经编辑:彭水萍今日,A股低开后下探,三大指数盘初均跌逾1%,截至上午收盘,上证指数跌0.56%报2952.85点,深证成指跌0.66%报9490.41点,创业板指跌0.43%报1884.01点,市场...【详细内容】
2023-12-11  Search: 多模态大模型  点击:(89)  评论:(0)  加入收藏
多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页
多模态大模型最全综述来了!由微软7位华人研究员撰写,足足119页——它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题: ...【详细内容】
2023-09-25  Search: 多模态大模型  点击:(334)  评论:(0)  加入收藏
GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!
新智元报道 【新智元导读】多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决,似乎已是箭在弦上了。随着...【详细内容】
2023-09-19  Search: 多模态大模型  点击:(82)  评论:(0)  加入收藏
多模态大模型能力测评:Bard 是你需要的吗?
机器之心编辑部为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny...【详细内容】
2023-08-30  Search: 多模态大模型  点击:(399)  评论:(0)  加入收藏
训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型
新智元报道编辑:LRS 好困【新智元导读】最近的多模态(对话)大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如GPT-4、BLIP-2、Flamingo等。...【详细内容】
2023-05-19  Search: 多模态大模型  点击:(289)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条