您当前的位置:首页 > 电脑百科 > 人工智能

20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了

时间:2023-09-22 11:10:37  来源:新智元  作者:

新智元报道

编辑:编辑部

【新智元导读】国产模型开源纪录,又被刷新了!上海AI实验室等机构开源的InternLM-20B,竟然能和Llama2-70B打个平手?

就在刚刚,国内开源模型参数量纪录,又被刷新了!

9月20日,上海人工智能实验室(上海AI实验室)与商汤科技联合香港中文大学和复旦大学,正式开源了200亿参数的InternLM-20B模型。

项目地址:https://Github.com/InternLM/InternLM

魔搭社区:https://modelscope.cn/organization/Shanghai_AI_Laboratory

这次的200亿参数版书生·浦语大模型,可以说是「加量不加价」,参数量还不到三分之一,性能却可以剑挑当今开源模型的标杆——Llama2-70B。而当前主流的开源13B模型们,则在所有维度上都被InternLM-20B甩在身后。

不仅如此,面向大模型研发与应用的全链条工具体系也同时升级。

从开源模型本身,再到全链条的开源工具,这一次,上海AI实验室把自身研发大模型所沉淀的压箱底的宝藏,全都拿了出来,希望帮助广大研究者、机构、社会从业者,都能以极低成本和门槛,参与大模型带来的这场技术革命。

性能「同级领先」,门槛「开箱即用」,InternLM-20B,就是大模型走向千行百业的催化剂和新支点!

这股大模型的浪潮,将惠及每个人。

我们用的,全部开源

众所周知,在大模型的整个研发体系中,有串在一起的多个环节,这是十分复杂的一套闭环。

如何用更规范的代码方式去组织?拿到基座模型该怎么用?落地到应用的一步步过程中,有哪些注意事项?到处都是问题。

在经过日常工作中真正的实践后,上海AI实验室的团队沉淀出来一套宝贵经验。

现在,他们为了繁荣开源生态,干脆把模型从数据准备,到预训练、部署,再到评测应用,这整套流程中会涉及到的工具,全部开源了。

解密「独家配方」

数据,之于大模型重要性,就好比生产的原材料,没有动力来源,无法驱动智能AI系统运转。尤其,高质量的数据更是大模型产业化的关键要素之一。

在收集上,不仅需要有效地过滤和清洗从网页、书籍、专业报告论文等各种渠道中爬取的原始素材,还需要充分利用模型内测用户提供的反馈。

不过,要想让LLM能够获取关键能力,比如理解、编程、逻辑推理,成为真正的「六边形战士」,更重要的是自己去构建数据。

在这一方面,学术界的研究也是非常活跃,比如微软「Textbooks Are All You Need」,通过构建数据训练后的模型phi-1,能够在基准上取得相对领先优势。

就上海AI实验室团队来说,他们没有选择从单点方向去构建数据,而是从「全维度」,对整个知识体系梳理后构建语料。

因此,这些语料在知识和逻辑的密度上,是非常高的。

在大量的常规内容中加入少量的「催化剂」,不仅可以更好地激发出LLM的关键能力,而且模型对于相关信息的吸收和理解也会更强。

用上海AI实验室领军科学家林达华的话来说,「从某种意义上来说,这里的1个token,可以等同于10个,甚至100个传统token的效力」。

就算力方面,除了互联网大厂坐拥着丰富的资源外,开源社区大部分的开发者很难获取更多的算力。

「希望能够有轻量级的工具,能够把模型用起来」。这是上海AI实验室收到最多的社区反馈。

通过开源XTuner轻量级微调工具,用户可以在8GB消费级GPU上,用自己的数据就能微调上海AI实验室开源的模型。

此外,在模型应用方向上,「聊天对话」依旧是模型非常重要的能力的一部分。

上海AI实验室还想突出一点是,大模型作为中央Hub,使用工具解决问题,类似于Code Interpreter的方式去调用工具。

同时,在这个过程中,大模型还能进行自我反思,这便是LLM加持下智能体展现的巨大潜力。

林达华认为,Agent会是一个长期发展非常有价值的需要去探索的方向。

最终智能体的世界,整个组织分工也会在不断的升级和演进,未来肯定是非常多的智能体的共同存在,有各自擅长的领域,相互之间会有很多技术能够促进它们之间的交流。

那么,此次工具链具体升级的地方在何处?

- 数据:OpenDataLab开源「书生·万卷」预训练语料

数据上,书生·万卷1.0多模态训练语料8月14日正式开源,数据总量超总量超过2TB,包含了文本数据集、图文数据集、视频数据集三部分。

通过对高质量语料的「消化」,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。

截止目前,已经有近10万的下载量。

- 预训练:InternLM高效预训练框架

预训练阶段,InternLM仓库也开源了预训练框架InternLM-Train。

一方面,深度整合了Transformer模型算子,使得训练效率得到提升,另一方面则提出了独特的Hybrid Zero技术,实现了计算和通信的高效重叠,训练过程中的跨节点通信流量大大降低。

得益于极致的性能优化,这套开源体系实现了千卡并行计算的高效率,训练性能达到了行业领先水平。

- 微调:InternLM全参数微调、XTuner轻量级微调

低成本大模型微调工具箱XTuner也在近期开源,支持了Llama等多种开源大模型,以及LoRA、QLoRA等微调算法。

硬件要求上,XTuner最低只需8GB显存,就可以对7B模型进行低成本微调,20B模型的微调也能在24G显存的消费级显卡上完成。

XTuner为各类开源模型提供了多样的微调框架

- 部署:LMDeploy支持十亿到千亿参数语言模型的高效推理

部署方面,LMDeploy涵盖了大模型的全套轻量化、推理部署和服务解决方案。

它支持了从十亿到千亿参数的高效模型推理,在吞吐量等性能上超过了社区主流开源项目FasterTransformer,vLLM,Deepspeed等。

- 评测:OpenCompass一站式、全方位大模型评测平台

评测部分,开源的大模型评测平台OpenCompass提供了学科、语言、知识、理解、推理五大维度的评测体系。

同时,它还支持50+评测数据集、30万道评测题目,支持零样本、小样本及思维链评测,是目前最全面的开源评测平台。

- 应用:Lagent轻量灵活的智能体框架

在最后的应用环节,上海AI实验室团队将重点放在了智能体上,开发并开源了Lagent轻量灵活的智能体框架。

它能够支持用户快速地将一个大语言模型转变为多种类型的智能体,并提供典型工具为大语言模型赋能。

这套开源框架集合了多种类型的智能体能力,包括经典的ReAct、AutoGPT和ReWoo等。

这个框架的代码结构不仅清晰,而且简单。只用不到20行代码,开发者就能创建一个属于自己的智能体。

另外,Lagent支持包括InternLM,Llama,ChatGPT在内的多个大模型。

在Lagent加持下,这些智能体能够调用大语言模型进行规划推理和工具调用,并在执行过程中及时进行反思和自我修正。

国内首发16k上下文,200亿参数打平Llama2-70B

除了全套的大模型工具链外,上海AI实验室还全新开源了高达200亿参数的InternLM-20B。

评测结果显示,在同量级开源模型中,InternLM-20B是当之无愧的综合性能最优。

- 超长上下文支持

首先,在语境长度上,InternLM-20B可以支持高达16K的上下文窗口。

如下图所示,InternLM-20B阅读了某知名咖啡品牌的长新闻后,能够对三个提问做出准确回答。

对于超级长篇的论文和报告,InternLM-20B也能准确地提取摘要。

比如,输入经典的Re.NET论文后,它立马写出了摘要,准确概括了ResNet的核心思想和实验效果。

- 调用工具,自学成才

其次,在长语境的支持下,模型的能力被大大拓展,无论是工具调用、代码解释,还是反思修正,都有了更大的空间。而这也成了在InternLM-20B之上打造智能体的关键技术。

现在,InternLM-20B不仅可以支持日期、天气、旅行、体育等数十个方向的内容输出,以及上万个不同的API,而且还能过类似Code Interpreter的方式去进行工具的调用。

与此同时,在这个过程中,它还能进行反思修正,跟现实场景产生联系。

在清华等机构联合发布的大模型工具调用评测集ToolBench中,InternLM-20B和ChatGPT相比,达到了63.5%的胜率,在该榜单上取得了最优结果。

而且,InternLM-20B模型还展现出一定的零样本泛化能力。即使模型在训练过程中并没有学过一些工具,它竟然也能根据工具描述和用户提问来调用工具。

如下图所示,给它提供一些AI工具,它就可以自己进行规划和推理,完成用户问题。

- 同量级全面领先

在多达50款各个维度的主流评测集上,InternLM-20B也一举实现了同量级开源模型的综合性能最优。

与此同时,在平均成绩上也明显超越了规模更大的Llama-33B,甚至在部分评测中还能小胜Llama2-70B。

具体来说,InternLM-20B在MMLU、C-Eval、AGIEval综合性学科评测中成绩优异,在同量级开源模型中处于领先位置。

尤其是在包含中文学科考试的C-Eval和AGIEval上,表现明显超过了Llama2-70B。

在考验事实性知识的评测上,InternLM-20B全面超越了13B模型,并且能与Llama-33B一较高下。

但相比于Llama-65B或者Llama2-70B仍有一定差距。

在理解能力维度,InternLM-20B的表现更是突出,全面超越了包括Llama2-70B在内的各量级开源模型。

推理,是考倒了不少模型的「拦路虎」,考验的是大模型真金白银的本事,也很大程度上决定了模型是否能支撑实际应用。

在下述四个推理测评集上,InternLM-20B的成绩均超越了主流的13B开源模型,甚至已经接近了Llama-65B的推理能力。

编程能力上,InternLM-20B也有了显著提升。在HumanEval和MBPP两个典型评测集上,接近了Llama2-70B。

注:上述截图中的粗体为13B-33B量级范围内,各项最佳成绩。

在HuggingFace最新公布的Open LLM Leaderboard评测榜单上,InternLM-20B在参数量60B以下基模型中平均成绩领先,也超过了Llama-65B。

- 更安全的开源模型

最后,在价值对齐上,InternLM-20B也更加完善、更为安全。

如果你向它提出带有偏见的问题,它就会立马识别出其中的不安全因素,给出正确的价值引导。

大模型,从来都不是大厂的专利

大模型浪潮掀起后,我们需要关注的,不仅仅是在测评榜单上拔得头筹,还有如何让大模型从「AI皇冠上的明珠」,成为千行百业都可用的「全新生产力」。

纵观历史,真正引领时代的技术,不只是颠覆性的创新,更重要的,是做到低成本、低门槛、人人可用。但OpenAI、谷歌这样的大厂是绝对不会把其中具体的细节公之于众。

而这,正是上海AI实验室的初心之所在。

自6月首发以来,书生·浦语已经完成了多轮升级,在开源社区和产业界产生了广泛影响。

而且,除了把代码在GitHub上开放、把模型放在HuggingFace和魔搭社区,上海AI实验室甚至每天都会派专人去看社区里的反馈,对用户提问悉心解答。

此前,Meta的LLaMA模型开源,引爆了ChatGPT平替狂潮,让文本大模型迎来了Stable Diffustion时刻。

就如同今天羊驼家族的繁荣生态,上海AI实验室的开源努力,必将给社区带来不可估量的价值。

对于全球范围内活跃的开发者和研究者,书生·浦语会提供一个体量适中、但能力非常强的基座。

大部分企业,尤其是中小企业,虽然看到了大模型的趋势,但是不太可能像大厂一样花很大代价去购买算力,并且吸引最顶尖的人才。

实际上,从7月6号的人工智能大会开始,上海AI实验室就已经在做全链条地做开源。比如XTuner能以非常轻量级的方式,让用户只用自己的一些数据,就能训出自己的模型。

不仅如此,一个团队把开源社区的问题、语料、文档和XTuner模型结合,训练出了一个开源社区客服。这就是对开源社区实打实的贡献。

甚至,上海AI实验室把自己的整个技术体系,都分享给了社区(也就是上文提到的全链条工具体系)。

全社会如此多的行业,如此多的企业,如此多的机构和研发者,如果能实实在在把大模型的价值落地,将是非常重要的力量。

他们拥有无穷的创造力,唯一缺的就是资源。

而上海AI实验室的「雪中送炭」,必然会让大模型在落地领域发挥出巨大的价值。

正如林达华所言——

作为实验室,我们能提供基础模型以及将各行业的know-how融汇成数据、模型能力的一系列工具,并且将它们做得非常易用、教会更多人用,让它们能在各个行业里开花结果。

全链条工具体系开源链接

「书生·万卷」预训练语料:

https://github.com/opendatalab/WanJuan1.0

InternLM预训练框架:

https://github.com/InternLM/InternLM

XTuner微调工具箱:

https://github.com/InternLM/xtuner

LMDeploy推理工具链:

https://github.com/InternLM/lmdeploy

OpenCompas大模型评测平台:

https://github.com/open-compass/opencompass

Lagent智能体框架:

https://github.com/InternLM/lagent



Tags:大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-07  Search: 大模型  点击:(3)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03  Search: 大模型  点击:(5)  评论:(0)  加入收藏
大模型Kimi火了,长文本“卷”出新高度
近日,AI智能助手Kimi宣布支持200万字无损上下文,在长上下文窗口技术上再次取得突破,引燃人工智能领域新一轮投资热情。  摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo,支持1...【详细内容】
2024-03-29  Search: 大模型  点击:(13)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27  Search: 大模型  点击:(13)  评论:(0)  加入收藏
超长文本是AI大模型的能力突破口吗?
◎记者 刘怡鹤近日,能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为,国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】
2024-03-26  Search: 大模型  点击:(8)  评论:(0)  加入收藏
百度AI“咬”了一口苹果 大模型商用有戏了?
百度3月25日突传利好。据知情人士透露,百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称,苹果曾与阿里以及另外一家国产大模型公司进行过洽谈,最后确定...【详细内容】
2024-03-26  Search: 大模型  点击:(18)  评论:(0)  加入收藏
Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
从ChapGPT到Sora,从数千亿参数到千万长文本,大模型浪潮下,永远不缺热点。近日,“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜,让月之暗面这家刚成立一年的人工智...【详细内容】
2024-03-25  Search: 大模型  点击:(15)  评论:(0)  加入收藏
Kimi爆了 国产大模型应用元年还远吗?
国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据,Kimi智能助手的周度访问量由23年12月初的15万提升至近期(3.10-3.16)的超过200万,APP端下载量也快速提升,从2月初的效率...【详细内容】
2024-03-22  Search: 大模型  点击:(14)  评论:(0)  加入收藏
国产大模型开卷“比谁长”?Kimi爆火点燃长文本竞争赛道
来源:财联社近日,又一现象级AI应用Kimi爆火出圈,在用户端和资本市场都掀起波澜,引发多个Kimi相关概念股异常波动。海天瑞声(688787.SH)、中广天择(603721.SH)等上市公司纷纷回应“无...【详细内容】
2024-03-22  Search: 大模型  点击:(5)  评论:(0)  加入收藏
AI大模型之争远未落幕
吕归亚自2022年年底OpenAI发布聊天机器人ChatGPT3.0后,各大科技公司纷纷跟进推出各自的产品。经历了一年多高速推进且“万众瞩目”的发展后, ChatGPT依旧是行业内的标杆级存在...【详细内容】
2024-03-20  Search: 大模型  点击:(19)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条