您当前的位置:首页 > 互联网百科 > 大数据

数据能有多大作用?微软超强小模型引热议

时间:2023-09-14 14:40:38  来源:机器之心  作者:

随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?

当前,大模型一直在由不断增加的「大数据」来推动。「大模型 + 大数据」似乎已经成为构建模型的标准范式。但随着模型规模和数据量的不断增长,算力的需求会迅速膨胀。一些研究者尝试探索新思路。

6 月,微软发布了一篇题为《Textbooks Are All You Need》的论文,用规模仅为 7B token 的「教科书质量」数据训练了一个 1.3B 参数的模型 ——phi-1。尽管在数据集和模型大小方面比竞品模型小几个数量级,但 phi-1 在 HumanEval 的 pass@1 上达到了 50.6% 的准确率,在 MBPP 上达到了 55.5%。

phi-1 证明高质量的「小数据」能够让模型具备良好的性能。最近,微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》,对高质量「小数据」的潜力做了进一步研究。

论文地址:https://arxiv.org/abs/2309.05463

模型简介

架构

研究团队使用 phi-1 的研究方法,并将研究重点放在自然语言常识推理任务上,创建了拥有 1.3B 参数的 Transformer 架构语言模型 phi-1.5。phi-1.5 的架构与 phi-1 完全相同,有 24 层,32 个头,每个头的维度为 64,并使用旋转维度为 32 的旋转嵌入,上下文长度为 2048。

此外,该研究还使用 flash-attention 进行训练加速,并使用 codegen-mono 的 tokenizer。

图片

训练数据

phi-1.5 的训练数据是由 phi-1 的训练数据(7B token)和新创建的「教科书质量」数据(大约 20B token)组成的。其中,新创建的「教科书质量」数据旨在让模型掌握常识推理,研究团队精心挑选了 20K 个主题来生成新数据。

值得注意的是,为了探讨网络数据(LLM 常用)的重要性,该研究还构建了 phi-1.5-web-only 和 phi-1.5-web 两个模型。

研究团队表示:创建强大且全面的数据集需要的不仅是原始计算能力,还需要复杂的迭代、有效的主题选择,以及对知识的深入了解,具备这些要素,才能确保数据的质量和多样性。

实验结果

对于语言理解任务,该研究在多个数据集(包括 PIQA、Hellaswag、OpenbookQA、SQUAD 和 MMLU)上评估了一些模型。评估结果如下表 3 所示,phi-1.5 的性能可以媲美 5 倍大的模型:

图片

在常识推理基准上的测试结果如下表所示:

图片

在更复杂的推理任务(例如小学数学和基础编码任务)上 phi-1.5 还超越了大多数 LLM:

图片

研究团队认为,phi-1.5 再次证明了高质量「小数据」的力量。

图片

质疑与讨论

或许是因为「大模型 + 大数据」的理念太深入人心,这项研究遭到了机器学习社区一些研究人员的质疑,甚至有人怀疑 phi-1.5 直接在测试基准数据集上训练了。

图片

网友 Susan Zhang 进行了一系列验证,并指出:「phi-1.5 能够对 GSM8K 数据集中的原问题给出完全正确的回答,但只要稍微修改一下格式(例如换行),phi-1.5 就不会回答了。」

图片

 

图片

还有修改问题中的数据,phi-1.5 在解答问题的过程中就会出现「幻觉」。例如,在一个点餐问题中,只修改了「披萨的价格」,phi-1.5 的解答就出现了错误。

图片

 

图片

并且,phi-1.5 似乎「记住了」最终答案,即使在修改数据的情况下该答案已经是错误的。

对此,论文作者之一 Ronen Eldan 很快给出了回应,针对上述网友测试出现的问题给出解释和反驳:

图片

但该网友再次阐明其观点:测试说明 phi-1.5 的回答对 prompt 的格式是非常「脆弱」的,并对作者的回应提出质疑:

图片

论文第一作者 Yuanzhi Li 回应道:「由于没有进行任何指令微调和对齐工作,phi-1.5 在稳健性上的确不如 GPT-4。但『脆弱』并不是正确的术语,事实上,对于任何模型,pass@k 准确率都会比 pass@1 高得多(所以模型正确就是偶然的)。」

图片

看到这些质疑与讨论,网友们直呼:「最简单的回应方式就是直接公开合成数据集。」

图片

对此,你怎么看?



Tags:数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除。
▌相关推荐
随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?当前,大模型一直在由不断增加的「大数据」来推动。「大模型 + 大数据」似乎已经成为构建模型的标准范...【详细内容】
2023-09-14  Tags: 数据  点击:(0)  评论:(0)  加入收藏
随着科技的飞速发展,大数据技术已经成为许多领域的重要工具。在公共卫生领域,大数据的应用也日益广泛。本文将探讨大数据在公共卫生领域的应用现状及未来发展趋势。一、大数据...【详细内容】
2023-09-14  Tags: 数据  点击:(2)  评论:(0)  加入收藏
数据复制对于构建可靠的大规模分布式系统至关重要。在本期中,我们将探讨常见的复制策略以及选择合适策略的关键因素。在本期中,我们将以数据库为例进行讨论。请注意,复制不仅适...【详细内容】
2023-09-13  Tags: 数据  点击:(2)  评论:(0)  加入收藏
在Java项目中,多个线程同时读写同一个文件可能会导致数据不一致的问题。这种情况下,当一个线程正在写入文件时,其他线程可能同时进行读取操作,导致读取到的数据是不一致或不完整...【详细内容】
2023-09-13  Tags: 数据  点击:(3)  评论:(0)  加入收藏
你好,我是码哥,一个拥抱硬核技术和对象,面向人民币编程的男人,设置星标不迷路。我在【Redis 使用 List 实现消息队列的利与弊】说过使用 List 实现消息队列有很多局限性。 没有...【详细内容】
2023-09-13  Tags: 数据  点击:(1)  评论:(0)  加入收藏
MySQL是一款常用的关系型数据库管理系统,为了保证数据的安全性和可靠性,备份与恢复策略是非常重要的。下面将介绍在Java实践中如何进行MySQL数据库的备份与恢复,并提供一些相关...【详细内容】
2023-09-12  Tags: 数据  点击:(4)  评论:(0)  加入收藏
数据库的缓存 -- 通过将数据库中的数据或结果集保存在内存或其他快速访问的介质中,能够加快查询响应,减少对磁盘或远程服务器的访问,降低资源消耗。根据缓存的位置、内容、粒度...【详细内容】
2023-09-12  Tags: 数据  点击:(3)  评论:(0)  加入收藏
折射8月份经济运行走势的各项统计数据陆续出炉。据央行最新披露,8月份,社会融资规模增量为3.12万亿元,人民币贷款增加1.36万亿元。8月末,人民币贷款余额232.28万亿元,同比增长11....【详细内容】
2023-09-11  Tags: 数据  点击:(2)  评论:(0)  加入收藏
关于airpydumpairpydump是一款功能强大的无线网络数据包实时分析工具,airpydump的核心类似于Aircrack套件中的airodump-ng。在该工具的帮助下,广大研究人员将能够轻松捕捉和分...【详细内容】
2023-09-11  Tags: 数据  点击:(5)  评论:(0)  加入收藏
当涉及到Oracle数据库性能优化时,以下是一些重要的方面: SQL查询性能调优。 编写高效的SQL查询语句,避免使用不必要的表连接、子查询等。 使用适当的谓词和操作符,以减少数据检...【详细内容】
2023-09-11  Tags: 数据  点击:(6)  评论:(0)  加入收藏
▌简易百科推荐
随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?当前,大模型一直在由不断增加的「大数据」来推动。「大模型 + 大数据」似乎已经成为构建模型的标准范...【详细内容】
2023-09-14    机器之心  Tags:数据   点击:(0)  评论:(0)  加入收藏
随着科技的飞速发展,大数据技术已经成为许多领域的重要工具。在公共卫生领域,大数据的应用也日益广泛。本文将探讨大数据在公共卫生领域的应用现状及未来发展趋势。一、大数据...【详细内容】
2023-09-14  小动漫故事    Tags:大数据   点击:(2)  评论:(0)  加入收藏
译者 | 李睿审校 | 重楼在大数据时代,高效的数据管理和查询性能对于希望从数据投资中获得最佳运营性能的企业来说至关重要。Snowflake是一个基于云的数据平台,它为企业提供了...【详细内容】
2023-09-12    51CTO  Tags:Snowflake   点击:(4)  评论:(0)  加入收藏
前言近年来,随着数据挖掘,机器学习等技术的发展与深入,企业从普通用户处收集到的大量的数据就变得越来越有价值,对这些数据进行分析处理可以更好的了解用户的习惯和喜好,从而向用...【详细内容】
2023-09-07  用九智汇  嘶吼网  Tags:数据   点击:(14)  评论:(0)  加入收藏
译者 | 布加迪审校 | 重楼“数据网格”正迎来重大时刻。通过谷歌新闻粗略地搜索一下,你会看到几十个相关的结果,而且种类繁多。随着众多新技术不断进步,这种情况正在发生。此外...【详细内容】
2023-09-07    51CTO  Tags:数据网格   点击:(9)  评论:(0)  加入收藏
在现代科技的推动下,数据已经成为推动机器学习和人工智能进步的关键因素之一。构建一个优质的数据集对于培养高效的机器学习模型至关重要。然而,数据集的收集并不是一项轻松的...【详细内容】
2023-09-07  技巧达人小影    Tags:数据集   点击:(13)  评论:(0)  加入收藏
在当今数字化时代,数据已成为决策制定和问题解决的关键要素之一。然而,有时我们面临的挑战是数据不足。在大多数情况下,数据科学家和研究人员依赖于大型数据集,以训练和验证机器...【详细内容】
2023-09-07  马海连    Tags:小数据   点击:(13)  评论:(0)  加入收藏
译者 | 布加迪审校 | 重楼在过去的几个月里,发布的人工智能工具数量日益增多。ChatGPT就是这样一款功能强大的工具,它是一种高级大语言模型(LLM),能够理解并进行类似人类的文本对...【详细内容】
2023-09-06    51CTO  Tags:分析数据   点击:(3)  评论:(0)  加入收藏
你会用数据下判断吗?你怎么确定你的判断是准确的?现在业务说你判断错了,你怎么应对?用数据下判断,是看似简单,实则极大影响数据分析结果的一个问题。同样是本月销售业绩1000万,如果...【详细内容】
2023-09-05  接地气的陈老师    Tags:数据诊断   点击:(25)  评论:(0)  加入收藏
本文将深入探讨大数据和数据分析在现代世界中的崭露头角,以及它们如何改变了决策制定的方式。我们将分析大数据的概念、重要性以及数据分析方法的演变,同时探讨大数据和数据分...【详细内容】
2023-09-05  高级互联网架构    Tags:大数据   点击:(25)  评论:(0)  加入收藏
站内最新
站内热门
站内头条