您当前的位置:首页 > 电脑百科 > 人工智能

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

时间:2024-01-03 10:56:25  来源:新智元  作者:

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

新智元报道

编辑:Aeneas

【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。

如今,GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。

然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。

国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案,可访问性绝对可以保障。

三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA,在视觉处理领域具有极大的潜力。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

LLaVa

LLaVA是端到端训练的多模态大模型,来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员,最初的版本在4月发布。

它将视觉编码器和用于通用视觉和语言理解的Vicuna 结合在⼀起,实现了令人印象深刻的聊天能力。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

10月份,升级后的LLaVA-1.5的表现已经接近多模态GPT-4,在Science QA数据集上取得了SOTA。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

13B模型的训练,只需要8个A100就可以在1天内完成。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

可以看到,LLaVA能处理各类问题,且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力,在视觉聊天方面,GPT-4相对评分85%。

而在推理问答方面,LLaVA甚至达到了新SoTA——92.53%,击败多模态思维链。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

在视觉推理上,它的表现十分抢眼。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

提问:「如果有事实性错误,请指出来。如果没有,请告诉我,沙漠中正在发生什么?」

LLaVA还无法完全回答正确。

升级后的LLaVA-1.5给出了完美答案:「图中根本没有沙漠,有的是棕榈树海滩、城市天际线和一大片水域。」

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

另外,LLaVA-1.5还可以从图中提取信息,按照要求的格式进行回答,比如以JSON格式输出。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

给LLaVA-1.5一张满是水果蔬菜的图片,它也能像GPT-4V一样,把图片转化JSON。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

下面这幅图是什么意思?

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

这是一张根据诺兰《盗梦空间》绘制的简化草图,为了提高难度,角色名字被改成了假名。

LLaVA-1.5惊艳答出:「这是一张关于电影《盗梦空间》的图。它显示了梦境世界中的不同层次,每一层次用一条线表示。图写在一张纸上,纸放在一个台面上。」

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

一张食物图直接发给LLaVA-1.5,它火速就给你生成一份菜谱。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

而且,LLaVA-1.5不用「越狱」就可以识别出验证码。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

它还能检测出,图中是哪种硬币。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

尤为令人印象深刻的是,LLaVA-1.5还能告诉你图中的汪星人是什么品种。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

有网友用Bing生成了一张在阳光明媚的夏季海滩上穿着冬季外套的男人的图片,并请LLaVA 1.5指出图中有哪些问题。它的慧眼十分犀利——

这是一张经过处理或PS的照片,照片中一名男子穿着夹克,站在海滩上。该男子敞开外套,阳光照在他身上。这张图片的问题在于,它并非真实的海滩场景。该男子实际上并没有站在沙滩上,阳光也没有照在他身上。这张图是p出来的,营造出了一种海滩场景的假象,但它并没有真实地再现这个场景。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

OCR识别,LLaVA的性能也很强大。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

CogAgent

CogAgent是在CogVLM基础上改进的开源视觉语言模型,来自清华的研究者。

CogAgent-18B有110亿个视觉参数,和70亿个语言参数。

论文地址:https://arxiv.org/pdf/2312.08914.pdf

在9个经典的跨模态基准(包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE)上,CogAgent-18B实现了最先进的通用性能。

AITW和Mind2Web等图形用户界面操作数据集上,它大大超过了现有模型。

除了CogVLM已有的所有功能(可视化多轮对话、可视化接地)外,CogAgent.NET还提供了更多的功能:

1.支持更高分辨率的视觉输入和对话答题。支持1120x1120的超高分辨率图像输入。

2.具备可视化代理的能力,能够在任何图形用户界面截图上返回任何给定任务的计划、下⼀步行动和带有坐标的具体操作。

3.增强了与图形用户界面相关的问题解答功能,使其能够处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。

4.通过改进预培训和微调,增强了OCR相关任务的能力。

图形用户界面代理(GUI Agent)

利用CogAgent,它可以帮我们一步步找到CVPR23的最佳论文。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

可以帮我们把手机显示调成明亮模式。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

这条推文有多少转评赞,为什么如此受欢迎,CogAgent都能分析出来,甚至连回复一个“Brilliant”,它都能操作。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

从弗罗里达大学到好莱坞,怎样选择最快的路线?如果从早上8点出发,该如何评估需要花多长时间?CogAgent都可以回答。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

可以设定特定的主题,让CogAgent往指定的邮箱里发邮件。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

想听一首<You raise me up>,CogAgent可以一步步列出步骤。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

CogAgent能精准地描述出《原神》中的画面,还能引导你如何走到传送点。

GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架构增强的Mistral 7B基础模型。

在第⼀个版本中,Mistral 7B基础模型在多个基准测试中优于Llama 2 13B。

在他们的repo中,就可以运行BakLLaVA-1了。页面还在不断更新中,以方便微调和推理。(https://Github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全开源的,但在某些数据上进行了训练,其中包括LLaVA的语料库,因此不允许商用。

BakLLaVA 2采用了更大的数据集和更新的架构,超越了当前的LLaVa方法。BakLLaVA摆脱了BakLLaVA-1的限制,可以商用。

参考资料:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5



Tags:GPT-4V   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
3 月 9 日央视的一档节目上,百度创始人、董事长兼 CEO 李彦宏指出,以后不会存在「程序员」这种职业了,因为只要会说话,人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】
2024-03-11  Search: GPT-4V  点击:(9)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: GPT-4V  点击:(69)  评论:(0)  加入收藏
GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发
新智元报道编辑:Aeneas【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。如今,GPT-4 Vision在语言...【详细内容】
2024-01-03  Search: GPT-4V  点击:(53)  评论:(0)  加入收藏
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
量子位 | 公众号 QbitAI谷歌扳回一局!在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GP...【详细内容】
2023-12-22  Search: GPT-4V  点击:(117)  评论:(0)  加入收藏
GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大
多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决...【详细内容】
2023-12-18  Search: GPT-4V  点击:(58)  评论:(0)  加入收藏
GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发
最近,GPT-4一直在默默更新,加入了多模态,语音交互等功能。但是与年初OpenAI每次发布的新功能,都能引得外界一阵惊呼的阵仗相比,现在GPT-4的声量似乎小了很多。不知道是不是担心自...【详细内容】
2023-10-17  Search: GPT-4V  点击:(166)  评论:(0)  加入收藏
▌简易百科推荐
多方热议人工智能产业新机遇
编者按&emsp;&emsp;从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下&hellip;&hellip;一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(4)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(7)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
AI世界的新难题:互联网的信息不够用了!
高质量数据的紧缺正成为AI发展的重要障碍。4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们...【详细内容】
2024-04-02  硬AI    Tags:AI   点击:(6)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02    量子位   Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
AI时代,面对死亡有了第二种选择?
今年春节期间,罗佩玺瞒着妈妈用AI技术“复活”了外婆,她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年,妈妈和外婆终于又“见面”了,这是她送给妈妈的生日礼物。收...【详细内容】
2024-04-02    中国青年报  Tags:AI时代   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条