您当前的位置:首页 > 电脑百科 > 人工智能

非ChatGPT的14个大型语言模型

时间:2023-07-10 16:47:58  来源:51CTO  作者:

译者 | 李睿

如今,很多企业高管都将人工智能视为未来发展方向,许多技术领导者也将ChatGPT视为人工智能的代名词。但是AI target=_blank class=infotextkey>OpenAI的旗舰产品ChatGPT并不是唯一的大型语言模型——对于一些软件项目或领域来说,ChatGPT甚至可能不是一个最好的选择。几乎每天都有新的竞争者出现。似乎每家科技公司都想构建下一代人工智能工具,这些工具带来的好处和坏处取决于人们如何应用。

一些大型语言模型比其他一些模型好吗?也许。但它们都有缺陷、怪癖、故障和弱点,使用的时间越长,这些缺陷就越明显。生成式人工智能乍一看似乎很神奇,但随着时间的推移,其怪异和不可预测的一面开始显现。

衡量大型语言模型

由于大型语言模型的范围和使用方式,科学地衡量生成式人工智能回答问题的质量是很困难的。数据科学家可以输入数千甚至数百万个测试问题并评估答案,但如果测试集只关注一种类型的问题,那么其输出结果将会受到限制。咨询像Hugging Face这样的Open LLM排行榜类似的资源很有趣,但不一定准确。

如果说找到一种精确的方法来对大型语言模型进行衡量很困难,那么在它们之间切换变得越来越容易了。像OpenLLM或FastChat这样的项目使各种大型语言模型的连接变得更简单,尽管它们有不同的API和接口。开发人员可以将这些整合在一起,有时甚至可以并行运行这些模型。

构建大型语言模型的一个主要问题是成本。虽然人们很感兴趣并且投资得到爆炸式增长,但构建一个大型语言模型可能需要数月甚至数年的时间。开发团队首先收集训练数据,然后采用成本高昂的硬件消耗大量电力推送数据。最后他们制作了大型语言模型,而如何盈利以及维持这项工作的最佳方式是一个不断演变的问题。

一些企业正在尝试开源他们开发的大型语言模型,而另一些企业则依赖具有自己计费模型的服务。开源大型语言模型可能是一份真正的礼物,但前提是能够处理部署模型并保持其运行的工作。

以下是非ChatGPT的14种大型语言模型。它们可能是用户运营项目所需要的大型语言模型,也可能不是。唯一知道的方法就是把提示发给它们,并仔细评估结果。

1.Llama

Facebook(如今更名为Meta)创建了这个基础大型语言模型,然后将其发布,作为其声明的“开放科学承诺”的一部分。任何人都可以下载Llama,并将其作为为特定应用创建更精细调整模型的基础(Alpaca和Vicuna都是在Llama的基础上构建的)。该模型还有四种不同的规模。只有70亿个参数的较小版本在不太可能的地方使用。一名开发人员甚至声称Llama可以运行在只有4GB内存的Raspberry Pi上。

2.Alpaca

斯坦福大学的几位研究人员采用了Meta公司的Llama 7B,采用一组模仿ChatGPT等指令遵循模型的提示对其进行训练。这一微调产生了Alpaca 7B,这个大型语言模型将Llama LLM中编码的知识开放为人们可以通过提问和给出指令来获取的知识。据称,其轻量级大型语言模型可以在价值不到600美元的硬件上运行。

Alpaca 7B的创建者正在分发训练集和构建它的代码,任何人都可以复制模型或从不同的集合创建新的内容。

3.Vicuna

Llama的另一个后代是来自LMSYS.org的Vicuna。Vicuna团队从ShareGPT中收集了7万个不同对话的训练集,并特别注意创建多轮互动和指令跟随功能。这个大型语言模型有Vicuna-13b或Vicuna-7b两种版本,是最具价格竞争力的基本交互式聊天开放解决方案之一。

4.NodePad

并不是所有人都对大型语言模型生成“语言准确”文本的方式所吸引。NodePad的创建者认为,文本的质量往往会分散用户对潜在事实的双重检查。具有美观的用户界面的大型语言模型往往无意中美化结果,使用户更难以预测这些问题。NodePad旨在培养探索和创意,而不是生成用户几乎不会浏览的精致写作样本。这个大型语言模型的结果显示为节点和连接,就像人们在许多“思维导图工具”中看到的那样,而不像忆经完成的写作。用户可以利用该模型的百科知识来获得很好的想法,而不会在演示中迷失方向。

5.Orca

第一代大型语言模型在规模上取得了成功,随着时间的推移变得越来越大。来自微软公司研究团队的Orca扭转了这一趋势。该模型仅使用130亿个参数,使其能够在普通机器上运行。Orca的开发人员通过增强训练算法来使用“解释痕迹”、“逐步的思考过程”和“指令”来实现这一壮举。Orca并没有仅仅要求人工智能从原始材料中学习,而是提供了一套专门用于教学的训练集。换句话说,就像人类一样,人工智能在没有深入研究的情况下学习得更快。最初的结果很有希望,微软团队提供的基准测试表明,该模型的性能与更大的模型一样好。

6.Jasper

Jasper的创造者并不想创造一个聪明的多面手,他们想要的是一台专注于创造内容的聊天机器人。该系统提供了50多个模板,而不仅仅是一个开放式的聊天会话,这些模板是为特定任务设计的,例如为亚马逊这样的网站制作房地产清单或编写产品功能。其付费版本专门针对那些希望创建具有一致基调的营销文案的企业提供服务。

7.Claude

Anthropic把Claude塑造成一个乐于助人的助手,它可以处理企业的许多基于文本的业务(从研究到客户服务),输入提示,输出答案。Anthropic允许长提示来鼓励更复杂的指令,让用户对结果有更多的控制权。Anthropic目前提供两个版本:一个是名为Claude-v1的完整模型,另一个是更便宜的简化模型Claude Instant,后者的价格要便宜得多。第一种适用于需要更复杂、结构化推理的工作,而后者更快、更好地适用于分类和调节等简单任务。

8.Cerebras

当专用硬件和通用模型共同发展时,最终可以得到一个非常快速和有效的解决方案。Cerebras公司为那些想在本地运行它的用户提供了从小(1.11亿个参数)到大(130亿个参数)的各种Hugging Face大型语言模型。然而,许多人想要使用云计算服务,这些服务运行在Cerebras公司自己的集成处理器上,该处理器针对大型训练集进行了优化。

9.Falcon

全尺寸Falcon-40b和较小的Falcon-7b是由阿联酋的技术创新研究所(TII)建造的。他们在RefinedWeb上的大量通用示例上训练了Falcon模型,重点是提高推理能力。然后,他们将其与Apache 2.0一起发布,使其成为可用于实验的最开放和不受限制的大型语言模型之一。

10.ImageBind

许多人认为Meta公司是一家主导社交媒体的大公司,但该公司也是一家开源软件开发商。随着人们对人工智能的兴趣日益浓厚,该公司开始分享自己的许多创新成果也就不足为奇了。ImageBind是一个旨在展示人工智能如何同时创建多种不同类型数据的项目;在这种情况下,包括文本、音频和视频。换句话说,如果允许的话,生成人工智能可以将整个想象的世界整合在一起。

11.Gorilla

人们可能听说过很多关于使用生成式人工智能编写代码的事情。其结果往往表面上令人印象深刻,但仔细检查就会发现存在严重缺陷。其语法可能是正确的,但是API调用都是错误的,或者它们甚至可能指向一个不存在的函数。Gorilla是一个大型语言模型,它的设计是为了更好地处理编程接口。它的创建者从Llama开始,然后对其进行微调,重点关注直接从文档中截取的更深层次的编程细节。Gorilla的团队还提供了自己的以API为中心的测试成功基准集。对于希望依靠人工智能进行编码协助的程序员来说,这是一个重要的补充。

12.Ora.ai

Ora.ai是一个允许用户创建针对特定任务进行优化的目标聊天机器人的系统。LibrarianGPT尝试用一本书中的段落来回答任何问题。例如,聊天机器人可以从Carl Saga教授的所有著作中汲取灵感。人们可以创建自己的聊天机器人,也可以使用其他人已经创建的数百个聊天机器人中的一个。

13.AgentGPT

另一个将应用程序所需的所有代码整合在一起的工具是AgentGPT。它的设计目的是创建代理,这些代理可以被派去处理诸如计划度假或编写某种游戏代码之类的工作。大部分技术栈的源代码都可以在GPL3.0下获得。还有一个正在运行的版本作为服务提供。

14.FrugalGPT

FrugalGPT 并不是一个不同的模型,而是一种寻找价格更低的模型来回答特定问题的谨慎策略。FrugalGPT的研究人员认识到,回答许多问题不需要更大、更昂贵的模型。他们的算法从最简单的开始,在一系列大型语言模型中逐级移动,直到找到一个更好的答案。研究人员的实验表明,这种谨慎的方法可以节省98%的成本,因为许多问题实际上并不需要采用复杂的模型。

原文标题:14 LLMs that aren't ChatGPT,作者:Peter Wayner



Tags:大型语言模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除。
▌相关推荐
译者 | 李睿如今,很多企业高管都将人工智能视为未来发展方向,许多技术领导者也将ChatGPT视为人工智能的代名词。但是OpenAI的旗舰产品ChatGPT并不是唯一的大型语言模型—...【详细内容】
2023-07-10  Tags: 大型语言模型  点击:(0)  评论:(0)  加入收藏
本文将介绍Replit如何利用Databricks、Hugging Face和MosaicML训练大型语言模型(LLMs)。Replit是美国一家编码平台,提供了一个可从浏览器访问的IDE,无需设置即可开始编码,此...【详细内容】
2023-04-27  Tags: 大型语言模型  点击:(60)  评论:(0)  加入收藏
▌简易百科推荐
译者 | 李睿如今,很多企业高管都将人工智能视为未来发展方向,许多技术领导者也将ChatGPT视为人工智能的代名词。但是OpenAI的旗舰产品ChatGPT并不是唯一的大型语言模型—...【详细内容】
2023-07-10    51CTO  Tags:大型语言模型   点击:(0)  评论:(0)  加入收藏
2023年7月7日,华为开发者大会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新机会和...【详细内容】
2023-07-10  环球Tech    Tags:盘古大模型   点击:(2)  评论:(0)  加入收藏
ChatGPT推出至今 最强最有用的功能是什么?可能要非 代码解释器(Code Interpreter)莫属了。这项功能下周才会正式向所有Plus用户开放,但不少提前进行测试的网友都不约而同地发现:...【详细内容】
2023-07-10    量子位  Tags:ChatGPT   点击:(3)  评论:(0)  加入收藏
作者|卓心月出品|零态LT(ID:LingTai_LT)大模型从概念到落地,到底有多快?近期科技圈最引人注目的2023世界人工智能大会(WAIC 2023),给出了让所有人震惊的答案:半年!半年,对于任何一个科技...【详细内容】
2023-07-10    零态LT  Tags:大模型   点击:(2)  评论:(0)  加入收藏
  当下,如火如荼的大模型热潮,已经蔓延了数月之久,在各种关于大模型的测评中,优先级最高,也最被人看重的,莫过于各类大模型所展现出的IQ能力。  无论是写代码、做数学题,还是各...【详细内容】
2023-07-10    新浪网  Tags:大模型   点击:(5)  评论:(0)  加入收藏
[环球时报综合报道]联合国下属机构国际电信联盟日前在瑞士日内瓦举办主题为“人工智能(AI)造福人类”全球峰会,9个AI人形机器人在展会现场担任新闻发言人。报道称,本届峰会上展...【详细内容】
2023-07-10    环球网  Tags:机器人   点击:(4)  评论:(0)  加入收藏
一个prompt就能分析数据、创建图表、编辑文件、执行数学运算!一夜之间,无数打工人的岗位被颠覆了。今天,ChatGPT代码解释器测试版正式向所有Plus用户开放,这或许是GPT-4有史以来...【详细内容】
2023-07-09    华尔街见闻  Tags:   点击:(2)  评论:(0)  加入收藏
与3、4月份人们充满期待的科幻想象相比,当下做大模型的人,关注的话题更接近现实。他们发现,数据是难题,算力也是难题,大模型这条路,前景美好但现实艰难。作者:任晓宁 卷数量7月6日...【详细内容】
2023-07-09    经济观察报  Tags:大模型   点击:(2)  评论:(0)  加入收藏
IT之家 7 月 9 日消息,近年来,人工智能(AI)在创作艺术品方面展现了惊人的能力。只要在一个文本框里输入一句话,AI 就能根据指令生成一幅美丽的图像。这种技术的魅力在于它能用人...【详细内容】
2023-07-09    IT之家  Tags:AI作图   点击:(2)  评论:(0)  加入收藏
“百模大战”开打,未来谁将脱颖而出?在今年的世界人工智能大会上,大模型占据当仁不让的C位,国内外总计30余款大模型集体亮相,据记者不完全统计,其中既有来自企业巨头华为、百度、...【详细内容】
2023-07-09    北京日报客户端  Tags:人工智能   点击:(10)  评论:(0)  加入收藏
站内最新
站内热门
站内头条