您当前的位置:首页 > 电脑百科 > 人工智能

多模态大模型,阿里通义千问能和GPT-4V掰手腕了

时间:2024-01-29 10:54:47  来源:机器之心Pro  作者:

 

通义千问的图像推理能力,最近有了大幅提升。

2024 年,大模型领域要卷什么?

如果没有思路的话,不妨看看各家大厂都在押注什么方向。

最近一段时间,先是 AI target=_blank class=infotextkey>OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。

谷歌随后跟上,发布的 Gemini 成为了业界第一个原生的多模态大模型,它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。

很明显,新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息,未来的大模型也应该充分利用更多种类的感官,以此探索实现 AGI 的路径。

不只有 GPT-4V、Gemini,在这个充满潜力的方向上,国内的技术力量同样值得关注:最近的一个重要发布就来自阿里,他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布,在多个测评基准上取得了好成绩,并实现了强大的图像理解的能力。

我们还记得 Gemini 发布之后,谷歌马上被曝出给 Demo 加速。这让人们对新技术产生了一些质疑,并开始好奇:在当下的各路多模态大模型中,到底哪家比较强?

Demo 不作数,实际一测便知。有人拿着自己的名片给 GPT-4V 和 Qwen-VL-Plus 看,高下立见了:值得注意的是,去年底升级的 Plus 版还不是 Qwen-VL 的最强版本,最近发布的 Max 才是。

图源:https://x.com/altryne/status/1742597044781395982?s=20

在 Qwen-VL-Plus 发布后,国内也有人拿 Gemini 演示视频里的问题对它进行了测试,发现所有问题 Qwen-VL-Plus 完全都能回答上来。

一系列测评看下来,我们确实可以说,Qwen-VL 的整体能力已经达到了媲美 GPT-4V 和 Gemini 的水平,在多模态大模型领域实现了业内领先。

Qwen-VL 如何追平 GPT-4V、Gemini?

事实上,通义千问的视觉理解大模型已经经历了几轮迭代。

早在去年 8 月,阿里就放出了 Qwen-VL 模型的第一个版本,并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了「看」世界的能力。

图片来源:https://Twitter.com/Gorden_Sun/status/1696021151753855331

经历了几个月的改进,Qwen-VL 的整体能力又有了一个跃升,陆续推出 Plus 和 Max 两大升级版本,限时免费使用。用户可以在通义千问官网、通义千问 App 直接体验 Max 版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型 API。

相比于开源版本的 Qwen-VL,这两个模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。

在多模态大模型性能整体榜单 OpenCompass 中,Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V,占据了前三名的位置。

图片来源:https://opencompass.org.cn/leaderboard-multimodal

Qwen-VL Plus 和 Max 支持百万像素以上的高清图,甚至各种极端长宽比的图片。

它们不仅有高水平的基准评测性能,在真实场景中展现出来的解决问题的能力也有显著提高,不仅可以轻松进行对话,识别名人、地标,生成文本内容,视觉推理能力也有明显改善。

开发者一手实测

Qwen-VL 发布以来,从开源社区到社交网络上,我们已经看到了一系列「花活」。

接下来,我们从普通用户的角度,再来考验一下升级版的 Qwen-VL。

给它一张《繁花》里面 90 年代初的上海滩照片:

通义千问识别出了这里是上海外滩,还能介绍一下黄浦江的景色,以及上海海关大楼等特定建筑物。

剧中提到的炒饭内含多少卡路里?

看起来大模型可以理解并联系一些知识。

除了基础的描述和识别能力外,Qwen-VL 模型还具备视觉定位能力和针对画面指定区域进行问答的能力。比如,根据指示进行目标检测。

如果你在截图上圈住一部分,它可以对其中的内容进行解释:

新升级的 Qwen-VL 模型最显著的进步之一是基于视觉完成复杂推理的能力,比如理解流程图这种复杂的表示形式:

与此同时,升级后的 Qwen-VL 处理图像中文本的能力也有了显著提高,不管是识别中文还是英文文本。Qwen-VL-Plus/Max 可以有效地从表格和文档中提取信息,并将这些信息重新格式化,以满足自定义输出要求。

四个多月就有如此进步,这就让人们开始感叹,阿里通义千问大模型更新够快,能力够强。

阿里多模态大模型,正在爆炸式发展

能够达到如今的水准,Qwen-VL 的技术实力不是一朝一夕炼成的。

在多模态大模型方向上,阿里很早就开始布局。从 2021 年 M6 系列的预训练 - 微调模式,到 2022 年 OFA (One-For-All) 系列的统一模态表示和任务的模式,再到 OFASys 的系统化 AI 学习的尝试,通义千问团队的目标是做出和人一样能听、能看、能理解 & 沟通的通用 AI 模型(系统)。

2022 年,阿里开源了 OFA。OFA 能通过自然语言来描述一个图文多模态任务,比如输入「描述一下这张图片」,模型就会尝试去产生一个合适的图像描述,打破了大家对通用多模态任务模型效果不如专用多模态模型的传统观念。这篇被 ICML 2022 接收的论文思路启发了后续的许多研究,被谷歌、微软、Meta 等众多国际大厂所引用,是近年来多模态方向的高引论文之一。

2023 年以来,通义千问团队延续了 OFA 的研究路线,利用通义千问语言模型的能力,弥补了过去多模态模型在新任务泛化能力上的缺陷,相关成果就是 2023 年下半年我们看到的开源图文多模态模型 Qwen-VL 和音频多模态模型 Qwen-Audio。

与此同时,阿里云通义实验室的一系列视觉生成类成果,也彻底火出了圈,社交网络上时不时可以看到利用通义 AI 技术生成的动图。

比如只需一张图片即可生成跳舞视频的 Animate Anyone,在国内外都引发了大量关注:

再比如实现真人百变换装的 Outfit Anyone。这项技术不仅能够精确地处理服装的变形效果,并且能调整以适应不同的姿势和体形,实现更加逼真的试穿体验。无论是动画形象还是真人,都可以一键换装,让「QQ 秀」真正升级成了真人版。

此外,通义实验室的文生视频模型 I2VGen-XL 也是实实在在地火了一把,生成的视频兼顾高清、高分辨率、平滑、美观,毫不逊于 Gen2、Pika 效果。

I2VGen-XL 生成视频结果。

众所周知,通用人工智能的求索之路相当漫长,而大模型的技术突破,已经为我们指出了一个光明的方向。过去一年多,人们见证了一场激烈的 AI 技术角逐,赛道上不乏来自中国的选手。

以往,大模型领域的厂商大多以 OpenAI 为标杆,需要承认的是,OpenAI 的最新一代对话大模型 GPT-4 仍然在语言领域保持着领先优势。

但在接下来的 2024 年,在下一个最具爆发潜力的技术方向 —— 多模态大模型上,中国的技术与产品或可与 OpenAI、谷歌这样的选手掰一掰手腕。像 Qwen-VL 这样的国产大模型,能否实现从追平到进一步超越?会不会再诞生一批爆款应用?这些都是接下来一年值得期待的事情。

长远来看,在多模态大模型进一步实用化之后,我们以后可以更加理直气壮,让 AI 自动识别图像和音频中的内容,进行总结、摘要和分析,新技术势必会大幅度提升我们的工作效率;我们在 AR、VR 世界中与环境的交互也会更加便捷,可穿戴设备的体验将会更具真实感,新应用可以大幅改进娱乐和日常体验。

更加直观的是,多模态大模型能够根据每个人的喜好生成定制化内容和产品,对于阿里来说,这件事很重要。

或许,随着多模态大模型技术的突破,我们将很快看到电商领域发生一场革命。



Tags:多模态大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除。
▌相关推荐
简易百科:什么是多模态大模型?
简易百科:什么是多模态大模型?随着人工智能技术的不断发展,多模态大模型作为一种新型的机器学习技术,逐渐成为人工智能领域的热点话题。多模态大模型能够处理多种媒体数据,如文本...【详细内容】
2024-01-29  Search: 多模态大模型  点击:(7)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: 多模态大模型  点击:(2)  评论:(0)  加入收藏
多模态大模型活跃,A股探底止跌
每经记者:刘明涛 每经编辑:彭水萍今日,A股低开后下探,三大指数盘初均跌逾1%,截至上午收盘,上证指数跌0.56%报2952.85点,深证成指跌0.66%报9490.41点,创业板指跌0.43%报1884.01点,市场...【详细内容】
2023-12-11  Search: 多模态大模型  点击:(50)  评论:(0)  加入收藏
多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页
多模态大模型最全综述来了!由微软7位华人研究员撰写,足足119页——它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题: ...【详细内容】
2023-09-25  Search: 多模态大模型  点击:(253)  评论:(0)  加入收藏
GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!
新智元报道 【新智元导读】多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决,似乎已是箭在弦上了。随着...【详细内容】
2023-09-19  Search: 多模态大模型  点击:(59)  评论:(0)  加入收藏
多模态大模型能力测评:Bard 是你需要的吗?
机器之心编辑部为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny...【详细内容】
2023-08-30  Search: 多模态大模型  点击:(301)  评论:(0)  加入收藏
训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型
新智元报道编辑:LRS 好困【新智元导读】最近的多模态(对话)大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如GPT-4、BLIP-2、Flamingo等。...【详细内容】
2023-05-19  Search: 多模态大模型  点击:(268)  评论:(0)  加入收藏
▌简易百科推荐
简易百科:什么是多模态大模型?
简易百科:什么是多模态大模型?随着人工智能技术的不断发展,多模态大模型作为一种新型的机器学习技术,逐渐成为人工智能领域的热点话题。多模态大模型能够处理多种媒体数据,如文本...【详细内容】
2024-01-29    简易百科  Tags:多模态大模型   点击:(7)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29    机器之心Pro  Tags:多模态大模型   点击:(2)  评论:(0)  加入收藏
简易百科之什么是大型语言模型?
简易百科之什么是大型语言模型?随着人工智能技术的不断发展,语言模型在自然语言处理领域的应用越来越广泛。大型语言模型作为其中的一种重要类型,受到了广泛的关注和研究。那么...【详细内容】
2024-01-26    简易百科  Tags:大型语言模型   点击:(15)  评论:(0)  加入收藏
大语言模型插件功能在携程的Python实践
作者简介成学,携程高级安全研发工程师,关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初,科技圈最火爆的话题莫过于大语言模型了,它是一种全新的聊天机器人模型,...【详细内容】
2024-01-26    携程技术  Tags:大语言模型   点击:(4)  评论:(0)  加入收藏
ChatGPT元年之后,AI重塑世界,人类如何与其“智慧共生”?
过去一年,人工智能(AI)凭借大语言模型的爆火迅速进入大众视野。它比以往任何时候都更强大,也更具亲和力。这不仅给未来生活带来了新希望,也在人们心中蒙上了一层担忧—&mdas...【详细内容】
2024-01-26    文汇网  Tags:AI   点击:(9)  评论:(0)  加入收藏
性AI机器人时代来临!人类与机器人的爱情,你敢尝试吗?
你是否曾经想过,如果有一天,你可以和一个AI机器人结婚,你敢尝试吗?在科技飞速发展的今天,人类与机器人的关系也越来越密切。从智能手机到智能音箱,从智能家居到智能汽车,我们似乎已...【详细内容】
2024-01-22  互联网的一些事    Tags:AI机器人   点击:(8)  评论:(0)  加入收藏
大型语言模型中最大的瓶颈:速率限制
作者 | Matt Asay策划 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)速率限制意味着每个人都在等待更好的计算资源或不同的生成人工智能模型。大型语言模型(LLM),如OpenAI的GPT-4...【详细内容】
2024-01-19    51CTO技术栈  Tags:大型语言模型   点击:(2)  评论:(0)  加入收藏
鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞 | 可免费体验
大厂们在整活方面开始卷起来了!前脚字节阿里的工具火了,现在腾讯这个新照片生成应用PhotoMaker直接刷屏,瞧这阵仗……只需上传一张或以上照片,无需额外LoRA训练,就能...【详细内容】
2024-01-16    量子位  Tags:AI工具   点击:(16)  评论:(0)  加入收藏
不是人才用不起,而是AI巡检更有性价比!
作者 | 涂承烨审校 | 重楼在许多行业中,如煤炭、电力、化工等,安全生产是至关重要的。这就需要通过巡检,对设备运行状态进行实时监测,及时发现并处理潜在的安全隐患,从而降低事故...【详细内容】
2024-01-16    51CTO  Tags:AI巡检   点击:(13)  评论:(0)  加入收藏
AI伴侣“占领”GPT商店,但这可能并不是件坏事
不久前,被不少人认为是“AI时代App Store”的GPT商店正式上线,然而同样是盛况空前的情况下,GPT商店与App Store上线之初的景象却完全不同。在此前经历了短暂的教育、知识类GPTs...【详细内容】
2024-01-15    三易生活  Tags:AI伴侣   点击:(12)  评论:(0)  加入收藏
站内最新
站内热门
站内头条