您当前的位置：首页 > 电脑百科 > 人工智能

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

时间：2024-01-29 10:54:47 来源：机器之心Pro 作者：

+ 加入收藏

通义千问的图像推理能力，最近有了大幅提升。

2024 年，大模型领域要卷什么？

如果没有思路的话，不妨看看各家大厂都在押注什么方向。

最近一段时间，先是 AI target=_blank class=infotextkey>OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。

谷歌随后跟上，发布的 Gemini 成为了业界第一个原生的多模态大模型，它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

很明显，新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息，未来的大模型也应该充分利用更多种类的感官，以此探索实现 AGI 的路径。

不只有 GPT-4V、Gemini，在这个充满潜力的方向上，国内的技术力量同样值得关注：最近的一个重要发布就来自阿里，他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布，在多个测评基准上取得了好成绩，并实现了强大的图像理解的能力。

我们还记得 Gemini 发布之后，谷歌马上被曝出给 Demo 加速。这让人们对新技术产生了一些质疑，并开始好奇：在当下的各路多模态大模型中，到底哪家比较强？

Demo 不作数，实际一测便知。有人拿着自己的名片给 GPT-4V 和 Qwen-VL-Plus 看，高下立见了：值得注意的是，去年底升级的 Plus 版还不是 Qwen-VL 的最强版本，最近发布的 Max 才是。

图源：https://x.com/altryne/status/1742597044781395982?s=20

在 Qwen-VL-Plus 发布后，国内也有人拿 Gemini 演示视频里的问题对它进行了测试，发现所有问题 Qwen-VL-Plus 完全都能回答上来。

一系列测评看下来，我们确实可以说，Qwen-VL 的整体能力已经达到了媲美 GPT-4V 和 Gemini 的水平，在多模态大模型领域实现了业内领先。

Qwen-VL 如何追平 GPT-4V、Gemini？

事实上，通义千问的视觉理解大模型已经经历了几轮迭代。

早在去年 8 月，阿里就放出了 Qwen-VL 模型的第一个版本，并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了「看」世界的能力。

图片来源：https://Twitter.com/Gorden_Sun/status/1696021151753855331

经历了几个月的改进，Qwen-VL 的整体能力又有了一个跃升，陆续推出 Plus 和 Max 两大升级版本，限时免费使用。用户可以在通义千问官网、通义千问 App 直接体验 Max 版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型 API。

相比于开源版本的 Qwen-VL，这两个模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准，并大幅超越此前开源模型的最佳水平。

在多模态大模型性能整体榜单 OpenCompass 中，Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V，占据了前三名的位置。

图片来源：https://opencompass.org.cn/leaderboard-multimodal

Qwen-VL Plus 和 Max 支持百万像素以上的高清图，甚至各种极端长宽比的图片。

它们不仅有高水平的基准评测性能，在真实场景中展现出来的解决问题的能力也有显著提高，不仅可以轻松进行对话，识别名人、地标，生成文本内容，视觉推理能力也有明显改善。

开发者一手实测

Qwen-VL 发布以来，从开源社区到社交网络上，我们已经看到了一系列「花活」。

接下来，我们从普通用户的角度，再来考验一下升级版的 Qwen-VL。

给它一张《繁花》里面 90 年代初的上海滩照片：

通义千问识别出了这里是上海外滩，还能介绍一下黄浦江的景色，以及上海海关大楼等特定建筑物。

剧中提到的炒饭内含多少卡路里？

看起来大模型可以理解并联系一些知识。

除了基础的描述和识别能力外，Qwen-VL 模型还具备视觉定位能力和针对画面指定区域进行问答的能力。比如，根据指示进行目标检测。

如果你在截图上圈住一部分，它可以对其中的内容进行解释：

新升级的 Qwen-VL 模型最显著的进步之一是基于视觉完成复杂推理的能力，比如理解流程图这种复杂的表示形式：

与此同时，升级后的 Qwen-VL 处理图像中文本的能力也有了显著提高，不管是识别中文还是英文文本。Qwen-VL-Plus/Max 可以有效地从表格和文档中提取信息，并将这些信息重新格式化，以满足自定义输出要求。

四个多月就有如此进步，这就让人们开始感叹，阿里通义千问大模型更新够快，能力够强。

阿里多模态大模型，正在爆炸式发展

能够达到如今的水准，Qwen-VL 的技术实力不是一朝一夕炼成的。

在多模态大模型方向上，阿里很早就开始布局。从 2021 年 M6 系列的预训练 - 微调模式，到 2022 年 OFA (One-For-All) 系列的统一模态表示和任务的模式，再到 OFASys 的系统化 AI 学习的尝试，通义千问团队的目标是做出和人一样能听、能看、能理解 & 沟通的通用 AI 模型（系统）。

2022 年，阿里开源了 OFA。OFA 能通过自然语言来描述一个图文多模态任务，比如输入「描述一下这张图片」，模型就会尝试去产生一个合适的图像描述，打破了大家对通用多模态任务模型效果不如专用多模态模型的传统观念。这篇被 ICML 2022 接收的论文思路启发了后续的许多研究，被谷歌、微软、Meta 等众多国际大厂所引用，是近年来多模态方向的高引论文之一。

2023 年以来，通义千问团队延续了 OFA 的研究路线，利用通义千问语言模型的能力，弥补了过去多模态模型在新任务泛化能力上的缺陷，相关成果就是 2023 年下半年我们看到的开源图文多模态模型 Qwen-VL 和音频多模态模型 Qwen-Audio。

与此同时，阿里云通义实验室的一系列视觉生成类成果，也彻底火出了圈，社交网络上时不时可以看到利用通义 AI 技术生成的动图。

比如只需一张图片即可生成跳舞视频的 Animate Anyone，在国内外都引发了大量关注：

再比如实现真人百变换装的 Outfit Anyone。这项技术不仅能够精确地处理服装的变形效果，并且能调整以适应不同的姿势和体形，实现更加逼真的试穿体验。无论是动画形象还是真人，都可以一键换装，让「QQ 秀」真正升级成了真人版。

此外，通义实验室的文生视频模型 I2VGen-XL 也是实实在在地火了一把，生成的视频兼顾高清、高分辨率、平滑、美观，毫不逊于 Gen2、Pika 效果。

I2VGen-XL 生成视频结果。

众所周知，通用人工智能的求索之路相当漫长，而大模型的技术突破，已经为我们指出了一个光明的方向。过去一年多，人们见证了一场激烈的 AI 技术角逐，赛道上不乏来自中国的选手。

以往，大模型领域的厂商大多以 OpenAI 为标杆，需要承认的是，OpenAI 的最新一代对话大模型 GPT-4 仍然在语言领域保持着领先优势。

但在接下来的 2024 年，在下一个最具爆发潜力的技术方向 —— 多模态大模型上，中国的技术与产品或可与 OpenAI、谷歌这样的选手掰一掰手腕。像 Qwen-VL 这样的国产大模型，能否实现从追平到进一步超越？会不会再诞生一批爆款应用？这些都是接下来一年值得期待的事情。

长远来看，在多模态大模型进一步实用化之后，我们以后可以更加理直气壮，让 AI 自动识别图像和音频中的内容，进行总结、摘要和分析，新技术势必会大幅度提升我们的工作效率；我们在 AR、VR 世界中与环境的交互也会更加便捷，可穿戴设备的体验将会更具真实感，新应用可以大幅改进娱乐和日常体验。

更加直观的是，多模态大模型能够根据每个人的喜好生成定制化内容和产品，对于阿里来说，这件事很重要。

或许，随着多模态大模型技术的突破，我们将很快看到电商领域发生一场革命。

Tags：多模态大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

全面转向生成式AI，苹果推出300亿参数多模态大模型

相较于英伟达、微软等大型科技股，苹果今年的表现令人失望不已，股价年内跌逾10%，且失去了“全球市值最高公司”的宝座。背后原因很简单，苹果在这场人工智能(AI)竞赛中落伍了。为...【详细内容】

2024-03-18　　Search: 多模态大模型点击:(12)　　评论:(0)　　加入收藏

简易百科：什么是多模态大模型？

简易百科：什么是多模态大模型？随着人工智能技术的不断发展，多模态大模型作为一种新型的机器学习技术，逐渐成为人工智能领域的热点话题。多模态大模型能够处理多种媒体数据，如文本...【详细内容】

2024-01-29　　Search: 多模态大模型点击:(174)　　评论:(0)　　加入收藏

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型...【详细内容】

2024-01-29　　Search: 多模态大模型点击:(69)　　评论:(0)　　加入收藏

多模态大模型活跃，A股探底止跌

每经记者：刘明涛每经编辑：彭水萍今日，A股低开后下探，三大指数盘初均跌逾1%，截至上午收盘，上证指数跌0.56%报2952.85点，深证成指跌0.66%报9490.41点，创业板指跌0.43%报1884.01点，市场...【详细内容】

2023-12-11　　Search: 多模态大模型点击:(88)　　评论:(0)　　加入收藏

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

多模态大模型最全综述来了！由微软7位华人研究员撰写，足足119页——它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发，全面总结了五个具体研究主题： ...【详细内容】

2023-09-25　　Search: 多模态大模型点击:(333)　　评论:(0)　　加入收藏

GPT-5来了？OpenAI被曝加急训练多模态大模型Gobi，一举狙杀谷歌Gimini！

新智元报道【新智元导读】多模态大模型的战场上，已有人闻到风声。据外媒爆料，OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决，似乎已是箭在弦上了。随着...【详细内容】

2023-09-19　　Search: 多模态大模型点击:(82)　　评论:(0)　　加入收藏

多模态大模型能力测评：Bard 是你需要的吗？

机器之心编辑部为了对多模态大模型的能力进行全面、系统的测评，来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny...【详细内容】

2023-08-30　　Search: 多模态大模型点击:(398)　　评论:(0)　　加入收藏

训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

新智元报道编辑：LRS 好困【新智元导读】最近的多模态（对话）大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入，实现强大的多模态语义理解，比如GPT-4、BLIP-2、Flamingo等。...【详细内容】

2023-05-19　　Search: 多模态大模型点击:(289)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(3)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(3)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版