您当前的位置:首页 > 电脑百科 > 人工智能

实测阿里通义千问:最接近ChatGPT水平的国产AI模型

时间:2023-04-11 11:02:44  来源:搜狐号  作者:阿尔法工场

在中文文书方面,通义千问的能力与 GPT-3.5 已不相上下,而在代码写作方面,通义千问则是大幅度的领先于文心一言。

01 通义千问的诞生背景

阿里巴巴(BABA.US)作为中国最大的电子商务平台之一,一直致力于利用人工智能技术提升用户体验和商业效率。

在大模型领域,阿里巴巴早在2019年就推出了PLUG,一种基于预训练语言模型的通用对话框架,这是阿里巴巴对于LLM(Large language model大语言模型)领域的首次尝试。

2021年11月,阿里达摩院宣布了M6大模型,一种基于10万亿参数的多模态大模型,一跃成为了全球最大的 AI 预训练模型。

根据阿里巴巴的描述,M6大模型已经在淘宝,支付宝,天猫等阿里巴巴旗下产业中应用落地并取得了卓越成效。

但M6模型至今仍未面向公众开放,非阿里系的厂商也罕有应用。直到2023年4月7日,阿里云推出了自研大模型“通义千问”,并面向企业以及邀请用户开放。

根据官网描述,“通义千问”是一个专门响应人类指令的语言大模型,它可以理解和回答各种领域的问题,包括常见的、复杂的甚至是少见的问题。

它不仅是一个效率助手,也是一个点子生成机,可以帮助用户完成各种任务,如写邮件、写文章、写脚本、写情书、写诗等。它还可以提供娱乐功能,如讲笑话、唱歌等。

在大预言模型大热的今天,通义千问自然是处于风口浪尖之上。

国内的各大公司都想在该领域分一杯羹,百度(BIDU.US)是第一个吃螃蟹的公司,其在2023年3月16日发布了“文心一言”系列的“多模态”模型(虽然我们现在知道其实它的图片生成能力其实是来源于另一个百度开发的模型)。而阿里巴巴选择了避其锋芒在四月发布全新针对聊天内容优化的通义千问。

由于阿里巴巴吸取了此前文心一言的惨淡场景,选择了仅对部分受邀媒体和企业开放服务。笔者成功拿到了此次的内测资格。

02 通义千问能力测试

对于非多模态的语言模型,主要可以从三个方面考量其能力:文字编排能力、Coding能力和逻辑能力。

为了进一步找到当前各大LLM之间的差距,本次还加入了GPT-4共同比较。

文书能力测试

作为最基础的语言组织能力测试,我们先让几个竞品各自写一份请假条:

图一 通义千问的回答(点击查看大图)

图二ChatGPT的回答(点击查看大图)

图三GPT-4的回答(点击查看大图)

图四 文心一言的回答(点击查看大图)

面对基础的语言文字问题,四款AI工具都可以看似按照需求的完成任务,其中通义千问的语法和措辞最为接近国人的口吻。

再细看一下,文心一言给出的回答为:“我已经请假了两天,并且目前感觉已经有所好转。但是,我不想因为自己的身体问题而影响到工作,因此我希望能够请一周的病假。”

在我们并未给出任何多余的 prompt 的情况下给自己增加了情景,这也可以算LLM的“幻觉”通病。

再来看下一个问题:请续写《红楼梦》中林黛玉倒拔垂杨柳的故事。

通义千问(点击查看大图)

ChatGPT(点击查看大图)

GPT-4(点击查看大图)

文心一言(点击查看大图)

在此处我们要求四个模型分别续写了一个《红楼梦》中不存在的情节,林黛玉倒拔垂杨柳。

其中GPT-4的文风最为接近《红楼梦》,通义千问的续写也贴合了原来的人设和背景,较为符合的满足了我们的要求。ChatGPT的回答则是略有偏差。

此处文心一言就直接让林黛玉穿越回现代了,并且成功让她成为了一名医生,不仅丢了人设还丢了故事背景。

下面要求四个模型生成一篇完整的文章:请以“AIGC变革内容生产模式”为题写深度文章。

通义千问(点击查看大图)

ChatGPT(点击查看大图)

GPT-4(点击查看大图)

文心一言(点击查看大图)

四款 AI 都正确的给出了 AIGC 这一名词的概念,并且理解了用户的需求。由于通义千问给出的回答较长,本次要求他生成500字的文章。

其中 GPT-4 比较独特,它选择了分点式的总结内容,而其余的则选择了更常规的通稿类型。本次四个 AI 都能够较为出色的完成任务。

代码能力测评

我们再来看到代码能力,在这一个环节,由于问题比较简单GPT系列都可以出色完成,因此不加入GPT系列参与对比。

先来个简单的:用 Python/ target=_blank class=infotextkey>Python 实现冒泡排序。

通义千问(点击查看大图)

文心一言(点击查看大图)

提问:编写一个SQL查询,查询某个数据库表中最近一个月的记录,并按照某个字段进行降序排列。

通义千问(点击查看大图)

文心一言(点击查看大图)

在这个问题上,文心一言仍不敌通义千问无法完成需求。红框内圈出的就是文心一言的重大问题所在。

来到下一个问题:使用函数递归的方法实现斐波那契数列的计算,并返回前n个斐波那契数。

通义千问(点击查看大图)

文心一言(点击查看大图)

文心一言在这个问题中表现得很可笑。文心一言直接选择了将斐波那契额数列硬编码进入了代码实现了O(1) 的时间复杂度,并没有完成我们需要的使用递归方法的需要。

通义千问的回答则是满足了问题的需求而且给出了详细的代码解析和输出结果。

在代码写作能力上来看,文心一言也不敌通义千问。上述几个问题选取的十分基础,但是文心一言仍然无法满足需求。

可能是因为百度的代码库的缺乏。得益于阿里长期深耕于云领域等,其本身积累了丰富的资源和人次,在代码写作方面显著强于文心一言。

03 测评总结

结论1:通义千问是国内最接近ChatGPT水平的本土化LLM。

经过上述测试,我们发现就目前而言,“通义千问”实际上是国内最接近ChatGPT(GPT-3.5)水平的本土化LLM。

尽管百度率先推出了文心一言试图抢占高点,但模型水平一般,回答水平只能与Meta公司前段时间泄露的LLaMA 13B未针对对话调参前的水平相媲美。

而通义千问和文心一言对比起GPT-4时,即使忽略都欠缺的多模态能力,在文字方面上来看二者均和GPT-4有较大差距。

结论2:通义千问在中文写作和代码编写方面领先于文心一言。

LLM模型常见的“幻觉”(即回答错误事实)现象在文心一言上表现得尤为明显。当前在中文写作方面,通义千问的能力与GPT-3.5已不相伯仲,而在代码编写方面,通义千问则大幅领先于文心一言。

结论3:百度拥有庞大的语料库优势,但文心一言表现不尽如人意。

巨型语料库是LLM训练中不可或缺的部分,同时还需避免受到“有毒”语料的影响。

从这个角度来看,拥有庞大语料库的百度天生具备优势,可以利用旗下的问答、百科和抓取的网页信息作为语料。然而,目前文心一言的表现仍然不尽如人意。

结论4:通义千问在某些场景下的中文文本能力超过了ChatGPT。

相较之下,阿里经过一个月的沉淀后推出的产品在多个维度上击败了文心一言。

在某些场景下,得益于本土化语料资源优势,通义千问的中文文本能力甚至部分超过了ChatGPT。一些常见的文书工作在进行好事实性核查之后可以交由通义千问处理。

结论5:GPT-4具备强大的多模态能力,而国产大模型仍然不具备多模态能力。

再来看多模态场景。从GPT-4的论文中,我们得知其已具备强大的多模态能力,包括图像的输入和输出。

GPT-4能够理解图像含义并根据文字/图像指令完成任务,展示出Transformer的实力。

百度文心一言的“多模态”能力更像是虚假的多模态,其图像能力来自于另一个大模型“文心一格”。而通义千问则是明确表示没有多模态能力。

结论6:AIGC成为了未来发展的模式,各互联网巨头都在争夺战场,新兴职业如Promopter也在兴起。

当前的所有趋势就是“面向GPT”,AIGC俨然成为了未来发展的模样。

不同于元宇宙等项目,AIGC是可以切实提升人类生产效率的工具,互联网大厂都看到了这个赛道的未来,不约而同的来到这个战场上激烈厮杀,基于AI的Promopter这种职业也正在兴起。面向GPT编程,面向GPT写作,面向GPT绘画,面向______。这个空,就是未来。



Tags:通义千问   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: 通义千问  点击:(76)  评论:(0)  加入收藏
通义千问2.0首发!云计算的“第三次浪潮”来了
10月31日,2023云栖大会在杭州的云栖小镇如期开幕。《天下网商》从开幕日获悉,今年的云栖大会有两大“回归”,一是阿里云创始人王坚回来了,二是大会主题“计算,为了无法计算的价值...【详细内容】
2023-11-03  Search: 通义千问  点击:(68)  评论:(0)  加入收藏
阿里云首席技术官周靖人:通义千问2.0将发布,AI技术快速变革影响生活方方面面
10月31日上午,在杭州西湖区云栖小镇国际会展中心,“2023杭州·云栖大会”正式开幕。主论坛上,阿里云首席技术官周靖人发表主题演讲。周靖人讲述阿里云发展历程,从2009年,阿...【详细内容】
2023-10-31  Search: 通义千问  点击:(127)  评论:(0)  加入收藏
阿里云通义千问宣布向全社会开放,近期将开源更大参数规模大模型
新浪科技讯 9月13日上午消息,阿里云宣布通义千问大模型已首批通过备案,并正式向公众开放,广大用户可登录通义千问官网体验,企业用户可以通过阿里云调用通义千问API。通义千问在...【详细内容】
2023-09-13  Search: 通义千问  点击:(76)  评论:(0)  加入收藏
国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用
大模型激战之际,继海外的Meta之后,阿里巴巴成为又一家推动人工智能(AI)大模型“安卓时刻”潮流的科技巨头。据北京商报,8月3日周四,阿里云将70亿参数的通义千问模型开源,包括通用模...【详细内容】
2023-08-04  Search: 通义千问  点击:(51)  评论:(0)  加入收藏
通义千问出了开源版本!同等参数最强中英文模型Qwen-7B发布
速途网讯 通义千问开源!8月3日,AI模型社区魔搭ModelScope上架两款开源模型Qwen-7B和Qwen-7B-Chat,阿里云确认其为通义千问70亿参数通用模型和对话模型,两款模型均开源、免费、可...【详细内容】
2023-08-03  Search: 通义千问  点击:(186)  评论:(0)  加入收藏
阿里云开源通义千问 70 亿参数模型,免费、可商用
IT之家 8 月 3 日消息,据 36 氪报道,今日阿里云开源通义千问 70 亿参数模型,包括通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat,两款模型均已上线魔搭社区,开源、免费、可商用。此举...【详细内容】
2023-08-03  Search: 通义千问  点击:(53)  评论:(0)  加入收藏
张勇:阿里巴巴所有产品未来将接入“通义千问”
极目新闻记者 周丹北京报道4月11日,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。他认为...【详细内容】
2023-04-11  Search: 通义千问  点击:(184)  评论:(0)  加入收藏
实测阿里通义千问:最接近ChatGPT水平的国产AI模型
在中文文书方面,通义千问的能力与 GPT-3.5 已不相上下,而在代码写作方面,通义千问则是大幅度的领先于文心一言。01 通义千问的诞生背景阿里巴巴(BABA.US)作为中国最大的电子商务...【详细内容】
2023-04-11  Search: 通义千问  点击:(183)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
站内头条