您当前的位置:首页 > 电脑百科 > 人工智能

超长文本是AI大模型的能力突破口吗?

时间:2024-03-26 10:44:48  来源:上海证券报  作者:

◎记者 刘怡鹤

近日,能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为,国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是主要突破口吗?大模型还将如何提升能力?

在3月24日举行的2024全球开发者先锋大会(2024 GDC)大模型前沿论坛上,阿里通义、腾讯混元、稀宇科技MiniMax ABAB、商汤商量、书生·浦语五个大模型的技术负责人罕见“同框”, 共同探讨未来大模型的技术演进方向。

超长上下文成国产大模型新竞逐焦点

3月18日,月之暗面公司宣布Kimi智能助手启动200万字无损上下文内测。2023年10月,Kimi初次亮相时其处理能力还只有20万字。也就是说,Kimi只用了不到半年,就将上下文处理能力提升了一个数量级。

月之暗面介绍称,大模型无损上下文长度的数量级提升,能进一步打开对AI应用场景的想象力,包括完整代码库的分析理解、可以自主帮人类完成多步骤复杂任务的智能体、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。

消息发布后,Kimi访问量激增,一度无法正常使用。连日来,Kimi还带“红”一众A股“Kimi概念股”。以超长上下文处理能力为突破口,Kimi成为国内出现“百模大战”以来为数不多的“破圈者”。

Kimi迅速走红后,阿里宣布“通义千问”将向所有人免费开放1000万字的长文档处理功能,可以帮助用户快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。360智脑也宣布正式内测500万字长文本处理功能,该功能将入驻360AI浏览器。

事实上,从2023年下半年开始,大模型支持的上下文长度就快速增长,从早期GPT-3的2K(存储容量单位),到今年3月提升到1M。

“更长的上下文意味着什么,是我们需要思考的。”上海人工智能实验室首席科学家林达华介绍说,2K的上下文能力支持日常聊天、知识问答、短文理解;32K支持拟人对话、长文分析、代码解释及编写;100K支持处理长报告及短篇小说、智能体长时间交互、简单的软件及网站构建;1M支持处理长篇小说、直接注入小型知识库、项目级代码分析与构建。

长文本能力仍存局限性

林达华认为,直接使用上下文面临两个基本问题:一是超长上下文的推理计算代价高昂;二是上下文本身对信息不会进行压缩,不能直接捕捉其中的深层知识和规律。

上海人工智能实验室青年科学家陈恺认为,目前业内对于长文本的评测方式是“大海捞针”,也就是从超长文本中找出一个信息,很多模型在这样的测试中能做到接近100%的准确率。

陈恺说:“但如果把模型换到更接近真实的使用场景里,需要模型找一些碎片化信息并把它们联系起来,模型的能力和准确率会大幅下降。这和其他模型的应用能力类似,业内要继续关注模型的泛化性和实际应用能力。”

此外,业内也有声音质疑超长上下文的技术水平和价值。月之暗面方面称,公司为了实现更好的长窗口无损压缩性能,研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,不走“滑动窗口”“降采样”等技术捷径,攻克了很多底层技术难点。

达观数据副总裁王文广接受上海证券报记者采访表示:“从创新点来看,Kimi显示出了其在无损阅读方面的巨大潜力,超长文本上下文的输入为内容创作和整理提供了技术基础。但从技术本身来说,这只是个噱头,既没有对模型能力提升带来什么帮助,本身也没什么难度。”

达观数据是专注智能文本处理的国家级专精特新“小巨人”企业。2023年7月,达观数据对外发布“曹植”大语言模型应用公测版,“曹植”具有长文本、多语言、垂直化三大特点。

王文广说:“从Kimi的走红来看,接下来‘百模大战’会更加喧嚣,很快会有大模型厂商推出具有千万字甚至上亿字处理能力的模型。未来,大模型领域可能还会出现有噱头、技术难度不高的宣传点。但真正的产业应用,还是要静下心来,一步一个脚印提升模型能力,一点一滴来解决产业上的问题。”

五大模型“主创”共论技术演进方向

除了上下文长度,国产大模型还有哪些能力提升路径?下一步如何更大限度地发挥“模”力?

阿里通义算法负责人周畅认为,合成数据会在未来大模型训练中扮演更重要的角色。合成数据是一种模仿真实世界数据的非人工创建的数据。

“通过使用合成数据,语言模型和多模态模型有望仅靠‘自己’便获得能力提升。升级数据处理能力将是提升模型研发水平的重要方向之一。”周畅说。

对于如何让模型本身深度参与迭代,陈恺表示,参照研究人员研发中需具备的能力,如果模型具备较强的数学能力、编程能力和头脑风暴能力,并很好地将几种能力结合起来,就能向“自我提升”的临界点迈进。

腾讯混元大模型算法负责人康战辉提到,目前,头部厂商的模型架构都在转向混合专家模型(Mixture of Experts,MoE)。混合专家模型即将大型模型拆分为多个较小的专家模型,每个专家模型负责处理特定的任务或数据子集。

在康战辉看来,未来,参数量较小的模型可能在应用端表现出更高效率和“性价比”,全模态输入输出的大模型将是下一阶段研究目标。

大模型的技术演进一方面旨在进一步提升能力,另一个重要方向是如何在现实场景中更好用。

稀宇科技技术副总裁安德森认为,人完成各种各样的工作时,并不是仅靠自己的大脑,而是靠大脑加上各种外部的工具。所以,大模型在落地应用的时候也要考虑把大模型和其他工具,包括其他模型结合在一起,使其更加便利。

商汤科技大装置执行总监成功表示,大模型的基础能力已在很多场景落地,但在实践中,模型的推理能力,包括规划执行能力等仍需重点突破。同时,他强调关注效率和成本,模型能以更低成本、更快触达应用始终是技术发展的重要目标。



Tags:AI大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
超长文本是AI大模型的能力突破口吗?
◎记者 刘怡鹤近日,能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为,国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】
2024-03-26  Search: AI大模型  点击:(8)  评论:(0)  加入收藏
AI大模型之争远未落幕
吕归亚自2022年年底OpenAI发布聊天机器人ChatGPT3.0后,各大科技公司纷纷跟进推出各自的产品。经历了一年多高速推进且“万众瞩目”的发展后, ChatGPT依旧是行业内的标杆级存在...【详细内容】
2024-03-20  Search: AI大模型  点击:(19)  评论:(0)  加入收藏
多模态AI大模型赋能移动机器人!受益上市公司梳理
财联社3月3日讯(编辑 若宇)移动机器人赛道近期关注度逐步上升。GTC 2024将于3月18至21日在加州圣何塞会议中心举行,英伟达计划发布机器人领域最新突破成果。英伟达大概率是通过...【详细内容】
2024-03-04  Search: AI大模型  点击:(36)  评论:(0)  加入收藏
新一批国产AI大模型通过备案
快科技1月30日消息,据媒体报道,新一批的国产AI大模型通过了备案许可,其中小米的小爱同学AI助手位居其中。据了解,此次共有13家企业14个AI大模型通过备案,是获批数量最大的一次,也...【详细内容】
2024-01-30  Search: AI大模型  点击:(57)  评论:(0)  加入收藏
解读AI大模型
AI大模型AI大模型,即大型人工智能模型,是近年来人工智能领域的重要进展。它通过在大规模数据集上进行训练,能够适应一系列下游任务,具有广泛的普适应用支撑能力。相比于小模型,AI...【详细内容】
2024-01-05  Search: AI大模型  点击:(205)  评论:(0)  加入收藏
群雄逐鹿AI大模型 狂飙之后如何商业化
◎记者 罗茂林年初爆火的《狂飙》,剧名正暗合了AI大模型的这一年。2月ChatGPT“带火”OpenAI时,行业还预测国内追赶尚需时日;但转眼的5月,一场声势浩大的“百模大战”便拉开帷幕...【详细内容】
2023-12-26  Search: AI大模型  点击:(61)  评论:(0)  加入收藏
AI大模型赋能的“数字地图”来了,可覆盖99%城乡道路
越来越“聪明”的导航来了。近日,高德地图宣布旗下基于北斗卫星导航系统、深度学习模型、惯性导航、泛在信号等前沿技术研发的车道级导航服务,截至目前已支持在国内99%以上的...【详细内容】
2023-12-12  Search: AI大模型  点击:(63)  评论:(0)  加入收藏
中国AI大模型,应该如何商业化?
文|产业家,作者|斗斗,编辑|皮爷如今,大模型的商业化问题再次被摆在台面上。一个事实是,当下的大模型训练需要强大的算力支撑,尤其是参数量大的模型,花费极大。比如OpenAI的语言模型GP...【详细内容】
2023-12-08  Search: AI大模型  点击:(199)  评论:(0)  加入收藏
谷歌AI大模型Gemini亮相:擅长复杂学科推理,能懂编程语言PK GPT-4
美国科技巨头谷歌今日宣布推出人工智能模型Gemini,并针对三种不同的尺寸优化了 Gemini 1.0:Gemini Ultra——谷歌最大、最有能力的模型,适用于高度复杂的任务。Gemin...【详细内容】
2023-12-08  Search: AI大模型  点击:(149)  评论:(0)  加入收藏
厂商争相布局,AI大模型加速在手机落地
中新社北京11月24日电 (记者 刘育英)中国多家手机厂商已在手机中部署AI大模型,或推出AI手机。接受采访的多位专家表示,AI大模型在手机中落地的路径更加清晰,但仍存在部分难点。...【详细内容】
2023-11-27  Search: AI大模型  点击:(72)  评论:(0)  加入收藏
▌简易百科推荐
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(1)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(2)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(6)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
AI世界的新难题:互联网的信息不够用了!
高质量数据的紧缺正成为AI发展的重要障碍。4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们...【详细内容】
2024-04-02  硬AI    Tags:AI   点击:(6)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02    量子位   Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
AI时代,面对死亡有了第二种选择?
今年春节期间,罗佩玺瞒着妈妈用AI技术“复活”了外婆,她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年,妈妈和外婆终于又“见面”了,这是她送给妈妈的生日礼物。收...【详细内容】
2024-04-02    中国青年报  Tags:AI时代   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条