您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

时间:2021-12-24 10:17:12  来源:  作者:量子位

博雯 发自 凹非寺

量子位 报道 | 公众号 QbitAI

在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。

这就是知识蒸馏,一种模型压缩/训练方法。

不过随着技术发展,大家也逐渐将蒸馏的对象扩展到了数据集上。

这不,谷歌最近就提出了两种新的数据集蒸馏方法,在推特上引起了不小反响,热度超过600:

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

 

像这样, 将50000张标注图像的CIFAR-10数据集“蒸馏”缩小至1/5000大小,只基于10张合成数据点进行训练,模型的准确率仍可近似51%

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

△上:原始数据集 下:蒸馏后

而如果“蒸馏数据集”由500张图像组成(占原数据集1%大小),其准确率可以达到80%。

两种数据集蒸馏方法分别来自于ICLR 2021和NeurIPS 2021上的两篇论文。

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

 


数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

 

通过两阶段循环进行优化

那么要如何才能“蒸馏”一个数据集呢?

其实,这相当于一个两阶段的优化过程:

  1. “内部循环”,用于在学习数据上训练模型
  2. “外部循环”,用于优化学习数据在自然数据上的性能

通过内部循环可以得到一个核岭回归(KRR)函数,然后再外部循环中计算原始图像标注与核岭回归函数预测标注之间的均方误差(MSE)。

这时,谷歌提出的两种方法就分别有了不同的处理路线:

一、标注解释 (LS)

这种方法直接解释最小化KRR损失函数的支持标注集(support labels),并为每个支持图像生成一个独特的密集标注向量。

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

△蓝:原始独热标注 橙:LS生成的密集标注

二、核归纳点 (KIP)

这种方法通过基于梯度的方法将KRR损失函数最小化,以此来优化图像和可能生成的数据。

以MNIST为例,下图中的上、中、下三张图分别为原始的MNIST数据集、固定标注的KIP蒸馏图像、优化标注的KIP蒸馏图像。

可以看出,在于对数据集进行蒸馏时,优化标注的效果最好:

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

 

对比已有的DC(Dataset Condensation)方法和DSP(Dataset Condensation with Differentiable Siamese Augmentation)方法可以看到:

如果使用每类别只有一张图像,也就是最后只有10张图像的蒸馏数据集,KIP方法的测试集准确率整体高于DC和DSP方法。

在CIFAR-10分类任务中,LS也优于先前的方法,KIP甚至可以达到翻倍的效果。

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

 

对此,谷歌表示:

这证明了在某些情况下,我们的缩小100倍的“蒸馏数据集”要比原始数据集更好。

两位华人作者

整个项目由萧乐超(Lechao Xiao)、Zhourong Chen、Roman Novak三人合作完成。

其中萧乐超为LS方法的论文作者之一,本科毕业于浙江大学的应用数学系,在美国伊利诺大学厄巴纳-香槟分校(UIUC)取得博士学位,现在是谷歌大脑团队的一名科学家。

他的主要研究方向是数学、机器学习和深度学习。

数据缩至1/5000,模型准确率却翻倍,谷歌新“蒸馏法”火了

 

另一位华人科学家Zhourong Chen则是KIP方法的论文作者之一,本科毕业于中山大学,并在香港科技大学取得了计算机科学与工程系的博士学位,现是google Research的一名软件工程师。

论文:
[1]https://openreview.net/forum?id=l-PrrQrK0QR
[2]https://openreview.net/forum?id=hXWPpJedrVP

开源地址:
https://github.com/google-research/google-research/tree/master/kip

参考链接:
https://ai.googleblog.com/2021/12/training-machine-learning-models-more.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态



Tags:蒸馏法   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  Tags: 蒸馏法  点击:(9)  评论:(0)  加入收藏
▌简易百科推荐
前言Kafka 中有很多延时操作,比如对于耗时的网络请求(比如 Produce 是等待 ISR 副本复制成功)会被封装成 DelayOperation 进行延迟处理操作,防止阻塞 Kafka请求处理线程。Kafka...【详细内容】
2021-12-27  Java技术那些事    Tags:时间轮   点击:(1)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  量子位    Tags:蒸馏法   点击:(9)  评论:(0)  加入收藏
分稀疏重建和稠密重建两类:稀疏重建:使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3:工程地址在: http://webdiis.unizar.es/~raulmur/orbslam/ DSO(Direct Sparse Odometry)因为...【详细内容】
2021-12-23  老师明明可以靠颜值    Tags:算法   点击:(7)  评论:(0)  加入收藏
1. 基本概念希尔排序又叫递减增量排序算法,它是在直接插入排序算法的基础上进行改进而来的,综合来说它的效率肯定是要高于直接插入排序算法的;希尔排序是一种不稳定的排序算法...【详细内容】
2021-12-22  青石野草    Tags:希尔排序   点击:(6)  评论:(0)  加入收藏
ROP是一种技巧,我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符,在本次getshell中,还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】
2021-12-15  星云博创    Tags:栈迁移   点击:(19)  评论:(0)  加入收藏
一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】
2021-12-15    晓掌柜丶韶华  Tags:排序算法   点击:(16)  评论:(0)  加入收藏
在了解golang的map之前,我们需要了解哈希这个概念。哈希表,又称散列表(Hash table),是根据键(key)而直接访问在内存储存位置的数据结构。也就是说,它通过计算出一个键值的函数,将...【详细内容】
2021-12-07  一棵梧桐木    Tags:哈希表   点击:(13)  评论:(0)  加入收藏
前面文章在谈论分布式唯一ID生成的时候,有提到雪花算法,这一次,我们详细点讲解,只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称,一般的雪花大约由10^19个水分子...【详细内容】
2021-11-17  小心程序猿QAQ    Tags:雪花算法   点击:(24)  评论:(0)  加入收藏
导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】
2021-11-04  华章科技    Tags:排序算法   点击:(37)  评论:(0)  加入收藏
这是我在网上找的资源的一个总结,会先给出一个我看了觉得还行的关于算法的讲解,再配上实现的代码: Original author: Bill_Hoo Original Address: http://blog.sina.com.cn/s/bl...【详细内容】
2021-11-04  有AI野心的电工和码农    Tags: KMP算法   点击:(36)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条