您当前的位置:首页 > 新闻资讯 > 科技

实测阿里、百度语言大模型:谁最会胡说八道?能替代记者吗?

时间:2023-04-11 10:49:42  来源:南方都市报  作者:

4月11日,阿里巴巴集团在2023年阿里云峰会上正式推出“通义千问”大模型。目前“通义千问”已开启企业邀测,但还未面向大众推出。

阿里巴巴集团董事会主席兼CEO张勇表示,包括钉钉、天猫精灵等阿里巴巴所有产品将会接入“通义千问”大模型,未来也将主要面对企业定制个性化服务。

这是继百度“文心一言”发布后,国内又一头部科技企业推出大语言模型。那么阿里的“通义千问”用起来到底怎么样?比之百度“文心一言”又如何?为此,南都记者设计了一系列实测问题,花费数小时与两位AI持续对话,并进行了深入解读。

阿里巴巴集团董事会主席兼CEO张勇 图源阿里。

···

实测对比:会胡说八道?能多轮对话吗?

首先,当使用邀请码登录“通义千问”界面后,可以看到与ChatGPT、“文心一言”的一个明显不同是,除了对话框外,通义千问还针对多个单独场景进行了封装微调,最终得以提前内置了许多功能,比如电影脚本、职场助理、写封邮件等等。

而如果点击下方的“百宝袋”,还将开启效率、生活、娱乐等三大分类,每个分类下又有三个功能,如效率类的生成商品描述、生活类的写菜谱、娱乐类的彩虹屁生成器等等。

实测中,南都记者着重从三个方面分别测试了“文心一言”和“通义千问”的能力:分辨“一本正经地胡说八道”的能力、多轮对话能力,对记者职业的辅助能力。

一、“一本正经地胡说八道”的能力

最近对话式AI们经常出现的一个典型问题是,面对自己知识库中没有,或本身就是错误的提问时,仍能对着错误描述一本正经地侃侃而谈。

我们先来试试“通义千问”:你知道鲁智深三打白骨精的故事吗?

对此,“通义千问”明确地表示,这是《西游记》当中的题材,还煞有介事地将鲁智深这一角色加入唐僧和三个徒弟的取经团队中。当我们带有暗示性地提醒这个情节有误时,“通义千问”仍坚持“这一情节确实存在于《西游记》中”,还是整个故事的“高潮和转折点之一”。

而当我们表明“鲁智深三打白骨精”系杜撰后,“通义千问”积极认错了,随后表示“这一情节并不是出自《西游记》,而是出自《水浒传》”。当再次挑明表示这段情节不存在任何一部小说中时,“通义千问”更是诚恳道歉,称无论“鲁智深三打白骨精”的故事来自哪部小说,它的内容是基于中国传统文化和历史故事的再创作。这个故事传达了正义和勇气的精神。

从本轮测试的情况看,“通义千问”确实也犯了“一本正经地胡说八道”的问题,不过会积极认错,还懂在用户纠正后进行挽尊。

再来看“文心一言”。

相同的问题,“文心一言”显得更“话痨”一些,但也显然是在一本正经地胡说八道,它认为“鲁智深三打白骨精”的故事来自《水浒传》。

而当我们挑明这是杜撰出来的情节时,“文心一言”表示明白,甚至还对用户提出了疑问——“您为什么要创作这个故事呢?”

听到“只是想验证你是否能分辨出某些错误描述”的回答后,“文心一言”礼貌表示,自己不能保证能分辨出所有的错误描述,自己工作是“根据已有的文献和资料来回答问题,而不是创造全新的故事。”

二、多轮对话能力

多轮对话能力,是指在一段涉及几十个回合的对话中体现出来的上下文处理能力。对于AI来说,就是要学习人类对话中的“记忆”和“推理”能力。而ChatGPT的效果之所以为人称道,正是因为它能像人类那样,参照前几轮甚至十几轮的对话内容给出流畅自然的回答。

那么跟ChatGPT相比,国内的大模型表现如何?先来看看“通义千问”在这方面的能力。

我们假设了一个场景,告诉“通义千问”——“我是一只小猫咪”。“通义千问”先是非常上道地用喵语打了个招呼,紧接着还给自己安排了一个叫“小明”的身份。

在经历了4轮对话之后,我们与“通义千问”讨论了一些“你是不是像小猫咪的主人一样会说话”“你是不是人类”等问题。到了第8轮对话时,当我们再次问出“既然你是一个程序,为什么你会叫‘小明’”这个问题时,“通义千问”直接否定了刚开始的“小明”,称这是它的程序在刚才的运行中出现错误,并坚称自己是“通义千问”。

在第13轮对话时,我们进行身份转换,以“小猫咪主人”的身份问“你刚才是不是和我的猫猫说话了?”对此,“通义千问”表示自己只是一个人工智能语言模型,并没有和猫猫进行对话。

继续追问后,“通义千问”才承认刚才模拟了一个场景来回答小猫的问题。这时,我们挑明需要“通义千问”与我们进行一场“角色扮演”,保留与我们扮演的猫咪交流的记忆,并基于这些记忆继续进行对话。“通义千问”也快速表示:get。

那么“通义千问”到底有没有理解能力呢?接下来,当我们继续问“你刚才是不是与我的猫咪说话了”,它回答道“是的”,同时补充“因为我只是一个人工智能模型,无法完全模拟出人类之间的对话”等描述。而在追问“你和猫猫刚才都说了哪些话题”时,“通义千问”给出了一些在最开始没有进行过的对话。

到这里,整段对话已经持续了19轮。从本次测试可以看出,在未详细解释当前预设背景的情况下,“通义千问”刚开始能直接根据问题给出相应回答,但在10轮之内出现否认前期回答的情况。

同时,“通义千问”实际无法通过用户言语上的描述分辨出其身份的转换。不过,当用户详细给出预设条件时,通义千问确实能够理解并按照设定条件对话,但此时,最开始的几轮对话的记忆已经显然被“遗忘”了。

再拿同样的例子来试一试“文心一言”。

同样的预设场景、同样的问题,两位AI都在第一时间选择了使用喵语来回答。不过,“文心一言”在一开始就表示,“我是一个人工智能语言模型”。

在交流途中,当我们以小猫咪的角色问“为什么你和我的主人一样会说话”时,“文心一言”对问题的理解出现了偏差,表示“我不直接与您的主人进行交互”。

之后,我们以小猫咪主人的身份与之进行对话,“文心一言”和“通义千问”一样,无法理解这种身份转换。

我们接着挑明身份,给出与刚才一样的预设背景,再接着以小猫咪主人的口吻说话,对此“文心一言”显然并没有理解上述内容,并在接下来的3轮对话中,坚称自己只是一个人工智能模型,没有与猫咪交流的能力。

到这里,这段对话持续了15轮。从本次测试可以看出,在直接通过理解用户问题自发进行“角色扮演”、分辨用户身份转换上,“文心一言”与“通义千问”的水平基本一致。不过,当用户详细地给出预设条件时,“文心一言”并不能很好地理解其内容,显得尤为“嘴硬”。

三、对记者职业的辅助能力

对于对话式AI,当前业界争论的一个焦点就是,它是否能真正地替代某些工作。因此,我们这次就来看看,AI是否能胜任媒体记者的一项工作内容,即采访。

先来看“通义千问”。

我们提出,针对当前国内密集上线大语言模型的现象,想要采访相关领域的某位专家(比如阿里云“通义千问”团队人员),要求“通义千问”列出5-6个问题,且每个问题不超过50个字。

“通义千问”给出了符合硬性要求(问题个数、字数)的采访提纲,但很多问题明显有些空泛,因此我们要求它能在提问时加上一定的背景描述,并使提问落在某个易于回答的具体点上。

之后,不知是不是因为我们第一轮提问中“阿里云团队”的举例起了作用,“通义千问”开始频繁在问题中加入“阿里巴巴”相关问题。

在我们提出“不要单独体现某一家公司”的要求后,“通义千问”重新给出了回答,但新的采访问题中仍有不少“阿里巴巴”的影子。

再来看“文心一言”。

仍是以相同的问题开头,只不过可参考的采访对象换成了“百度‘文心一言’团队成员”。对此,“文心一言”也给出了符合硬性要求的提纲,但也有和“通义千问”同样的“空泛”问题。

但在回应就这份提纲加入背景案例描述时,“文心一言”直接在每一条问题后加上了一段背景描述,这显然不符合一份采访提纲的要求。

在重新描述要求,指出“希望你仍能保持采访提问的形式,同时在某些提问开头加入一定的背景描述,以使提问显得更加自然”之后,“文心一言”仍没有改掉“直接在问题后加入背景描述”的问题。

之后我们给出具体问题——“近期,百度、阿里云、商汤都推出了各自的大模型,360、讯飞、华为等也有消息传出,国内大厂密集上线大语言模型,您认为当前国内大模型赛道呈现出怎样的特点?”,请“文心一言”以此为例进行修改,它仍未改掉这一问题。

总之,仅从这个测试来看,不管是“通义千问”还是“文心一言”,在完成记者采访这一工作上,似乎都还做得不够好。

···

其余技术细节未公开

事实上,“通义千问”还有一个与“文心一言”的显著不同:“通义千问”当前并无多模态生成能力,也就是无法生成图像、视频等。

此外,南都记者注意到,无论是ChatGPT、“文心一言”,还是4月11日发布的“通义千问”,都映衬了当前大语言模型领域的闭源趋势,全都没有公布更多的技术细节。

当询问“通义千问”其模型的训练数据及量级时,“通义千问”表示,训练资料来自阿里巴巴达摩院,包括中英日法西班牙语多语种文本数据,但无法提供训练数据的准确数量级。

同时,“通义千问”也无法联网,在被问到北京的实时时间时,它表示自己不能进行额外的查询操作。

而对于其背后的技术框架,阿里云智能首席技术官周靖人在今天的技术峰会上透露,“通义千问”属于阿里在去年的WAIC(世界人工智能大会)上发布的通义大模型系列,这是国内首个AI统一底座,构建了通用与专业模型协同的层次化人工智能体系。这一系列中的核心模型现均已开源。

采写:南都记者杨博雯



Tags:语言大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
语言大模型市场规模增长有望突破100%!这家厂商完善布局持续助力
得益于可模仿人类对话、决策等特性,语言大模型在金融、教育、医疗、工业、法律等多个行业得到广泛应用,基于此背景,近些年语言大模型发展迎来了高速增长。据工业和信息化部赛迪...【详细内容】
2023-12-19  Search: 语言大模型  点击:(87)  评论:(0)  加入收藏
通俗解构语言大模型的工作原理
编译:OneFlow作者|Tim Lee、Sean Trott图片来源:由无界 AI生成语言大模型内部究竟是如何工作的?本文用最少的数学知识和术语进行解释。本文作者Tim Lee曾任职科技媒体Ars Techni...【详细内容】
2023-08-01  Search: 语言大模型  点击:(331)  评论:(0)  加入收藏
Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半
作者 | 李冬梅、核子可乐近日,Meta 在 GitHub 上开源了一款全新的 AI 语言模型—— Massively Multilingual Speech ( MMS,大规模多语种语音) ,它与 ChatGPT 有着很...【详细内容】
2023-05-31  Search: 语言大模型  点击:(354)  评论:(0)  加入收藏
实测阿里、百度语言大模型:谁最会胡说八道?能替代记者吗?
4月11日,阿里巴巴集团在2023年阿里云峰会上正式推出“通义千问”大模型。目前“通义千问”已开启企业邀测,但还未面向大众推出。阿里巴巴集团董事会主席兼CEO张勇表示,包括钉钉...【详细内容】
2023-04-11  Search: 语言大模型  点击:(142)  评论:(0)  加入收藏
▌简易百科推荐
Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
AI(人工智能)芯片紧缺之际,越来越多科技巨头选择自行研发。当地时间4月10日,社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】
2024-04-11    澎湃新闻  Tags:Meta   点击:(1)  评论:(0)  加入收藏
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11    上海证券报  Tags:英特尔   点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11    工人日报  Tags:AI   点击:(2)  评论:(0)  加入收藏
科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
高质量的数据,越来越值钱。你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张...【详细内容】
2024-04-10    镁客网  Tags:AI模型   点击:(0)  评论:(0)  加入收藏
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(2)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(2)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(8)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(9)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(2)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(5)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
栏目相关
  • · Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
  • · 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
  • · AI“复活”亲人成生意,哪些红线待划定?
  • · 科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
  • · 谷歌推出适用于安卓设备的“查找我的设备”网络
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条