您当前的位置:首页 > 新闻 > 科技

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

时间:2021-10-27 11:27:01  来源:凹非寺  作者:

兴坤 发自 凹非寺
量子位 报道 | 公众号 QbitAI

谷歌新推出了弱监督看图说话模型SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。

从文字描述图像到回答图片相关问题,模型无需微调也能样样精通。

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

对于一般的视觉语言预训练(VLP)模型,训练数据集中要求包含大量精准标签。而模型的任务迁移,则需要针对特定任务重新进行数据集的标签标注。

总结下来,就是标注数据集不仅耗时耗力,还不能多任务通用。

能不能开发出一种又简单又万能的VLP模型呢?

谷歌新开发的这款模型使用了弱监督学习进行模型训练,通过利用大量的弱对齐图像-文本对进行建模,简化了VLP的训练流程,大大降低了训练的复杂性。

SimVLM使用前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用,从而能够更好地实现零样本学习泛化效果。

SimVLM模型是如何实现的?

SimVLM模型的预训练过程采用了前缀语言建模(PrefixLM)的单一目标,接受序列的前缀作为输入,通过模型解码器来预测其延续的内容。

对于数据集中的图像-文本对,图像序列可视作其文本描述的前缀。

这种方法可以简化训练过程,最大限度地提高模型在适应不同任务设置方面的灵活性和通用性。

模型的主干网络,则使用了在语言和视觉任务上均表现突出的Transformer架构

对输入的原始图像数据提取上下文patch,这里采用了ResNet卷积网络。

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

如上图所示:视觉模态中,图片被分割成多个patch,然后压缩为一维序列。文本模态语句则被映射到了一个表征向量中。

本模型使用了包含大约1.8B噪声的图像-文本对ALIGN训练集进行预训练,以此来实现更好的零样本学习泛化能力。

为了补偿训练集中的噪声影响,训练模型另外还使用了共800G的Colossal Clean Crawled Corpus (C4)数据集。

SimVLM模型基础性能如何?

模型的预训练完成后,需要在多模式任务中对模型进行微调,以测试性能。

这里用到的多模式任务有:VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps和Multi30K En-De。

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

将SimVLM模型与现有的功能完善的模型进行比较,测试结果如上表所示,参与评估的SimVLM模型还包括了三种不同规模:8600万参数、3.07亿参数和6.32亿参数。

跨模式任务的测试结果中,SimVLM模型的性能表现最好(数据越大越好),除了CoCo Caption的B@4指标,在其他任务上都取得了新的SOTA结果,充分证明了该模型的先进性。

SimVLM模型零样本泛化

SimVLM模型在跨模式任务测试中可以取得不错的性能表现,那么它能否顺利执行零样本跨模态转移呢?

预训练的SimVLM模型仅对文本数据进行微调或完全不进行微调,通过图像字幕、多语言字幕、开放式VQA和视觉文本生成等任务,对模型进行测试。

测试结果如下图所示:

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

给定图像和文本提示,预训练模型无需微调即可预测图像的内容。

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

除此之外,未进行过微调的模型在德语字幕生成、数据集外的答案生成、基于图像内容的文字描述、开放式视觉问题回答等应用上均有不错的表现。

为了量化SimVLM的零样本学习性能,这里采用了预训练的固化模型在COCO Caption和NoCaps上进行解码,然后与监督标准基线(Sup.)进行比较。

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

从结果对比上来看,即使没有监督微调,SimVLM也可以达到有监督的训练质量水平。

作者介绍

本研究的第一作者是谷歌学生研究员王子瑞,现就读于卡内基梅隆大学,曾以第一作者身份在ICLR、EMNLP、CVPR等顶会上发表了多篇论文。

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

截止到2020年12月20日,他在SuperGLUE数据集上获得了第一个超过人类得分的SOTA性能(分数超过90),目前则被百度团队赶超,位居第二。

谷歌发布最新零样本学习看图说话模型,多类型任务直接上手

 

这一次开发的SimVLM也在6个视觉语言基准测试中达到了单模型SOTA性能,并实现了基于文本引导的零样本学习泛化能力。

参考链接:
https://arxiv.org/abs/2108.10904
https://ai.googleblog.com/2021/10/simvlm-simple-visual-language-model-pre.html
http://www.cs.cmu.edu/~ziruiw/

 

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态



Tags:谷歌   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
我们所见过的技术上最复杂的漏洞利用之一”- 谷歌“零号项目”安全研究人员评价ForcedEntry无交互攻击。多年来,以色列间谍软件开发商NSO集团针对安卓和iOS设备开发出了多款...【详细内容】
2021-12-24  Tags: 谷歌  点击:(8)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  Tags: 谷歌  点击:(9)  评论:(0)  加入收藏
谷歌访问助手插件是专门针对chrome谷歌浏览器而开发的一款访问插件,可以为谷歌搜索,谷歌chrome商店,gmail邮箱提供加速服务,解决打不开的问题。这款插件可以帮助我们在使用谷歌...【详细内容】
2021-12-03  Tags: 谷歌  点击:(12)  评论:(0)  加入收藏
最近发现B2B的海外推广貌似是一个挺大的缺口,很多厂长或老板不了解独立站的流量构成和玩法,无论是自然流量还是付费流量。也衍生了很多培训(咦,这是不是我副业的好机会?)所以这次...【详细内容】
2021-11-11  Tags: 谷歌  点击:(31)  评论:(0)  加入收藏
如果你是一名忠实的Android玩家,那么可能会知道,今年的Android 12系统在版本规划上与“往届”相比可以说是很有些特殊。具体来说,除了前段时间刚刚推出正式版的Android 12外,谷...【详细内容】
2021-11-10  Tags: 谷歌  点击:(23)  评论:(0)  加入收藏
本月 12 日,谷歌召开了 Google Cloud Next '21 年度大会。在这场大会上,谷歌宣布推出Google Distributed Cloud(谷歌分布式云计算),这是一套软硬件结合的解决方案,用于将谷歌...【详细内容】
2021-10-29  Tags: 谷歌  点击:(29)  评论:(0)  加入收藏
谷歌新推出了弱监督看图说话模型SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。...【详细内容】
2021-10-27  Tags: 谷歌  点击:(40)  评论:(0)  加入收藏
由于一些特殊原因,使用国内手机号码注册谷歌邮箱会有各种限制,最常见的一种就是此电话号码无法用于进行验证,这就让人很无语了,很多朋友都卡在了这里。本期就针对国内手机号码注...【详细内容】
2021-10-27  Tags: 谷歌  点击:(38)  评论:(0)  加入收藏
很多人在使用谷歌浏览器时都有多开的需求,但是google浏览器是不支持多开的,只能切换账户。更不要提每个多开的窗口都配置不同的ip了。如果想要实现谷歌浏览器分身单窗口单IP,其...【详细内容】
2021-10-22  Tags: 谷歌  点击:(187)  评论:(0)  加入收藏
今天凌晨,谷歌正式发布了全新一代安卓Android 12系统,拥有全新的UI,同时带来了六大新功能,除此以外还有10月的安全补丁,下面就给大家介绍这六大新功能以及安卓Android 12系统配置...【详细内容】
2021-10-22  Tags: 谷歌  点击:(53)  评论:(0)  加入收藏
▌简易百科推荐
就在今天,腾讯方面宣布将在2022年1月31日下架企业QQ和营销QQ,其实这一消息的降临并不让笔者意外,因为早在今年的10月28日20点之后,企业QQ和营销QQ就被停止了续费服务。相信很多...【详细内容】
2021-12-27  科技探险家    Tags:企业QQ   点击:(0)  评论:(0)  加入收藏
日前,上海交通大学发布《全球电竞之都评价报告》,对全球15个致力于发展电竞之都的城市进行评价,上海作为中国城市电竞发展的排头兵,其拥有众多优质电竞企业及完整产业集群,因此排...【详细内容】
2021-12-27  经济日报    Tags:电竞   点击:(2)  评论:(0)  加入收藏
为优化网络氛围环境,微博又开始整顿用户信息了。本月月初,微博官方发布公告,要求昵称中带有如“二货”“SB”“瘪三”“娘炮”等明显低俗或侮辱性词汇的用户尽快修改,否则将面临...【详细内容】
2021-12-24  运了个营    Tags:微博   点击:(10)  评论:(0)  加入收藏
昨日谷歌宣布,自2022年12月19日开始停止对OnHub的软件支持,OnHub路由器仍将提供Wi-Fi信号,但用户无法用谷歌Home应用程序管理它。无法更新Wi-Fi网络设置、添加额外的Wifi设备或...【详细内容】
2021-12-22  雷峰网    Tags:Google OnHub   点击:(5)  评论:(0)  加入收藏
IT之家 12 月 20 日消息,百度网盘青春版 iOS 客户端今日晚间率先开启内测,安卓客户端将在稍后内测。使用苹果 iPhone 的IT之家小伙伴可以点此下载内测版,需要先下载 TestFlight...【详细内容】
2021-12-21  IT之家    Tags:百度网盘   点击:(9)  评论:(0)  加入收藏
对于拼车单,是接还是不接,不少网约车司机表示很矛盾。接吧,钱少事多,常常跑了个寂寞,不接吧,车多客少,挑三拣四没饭吃。 在平台大力推广拼车单之下,不少司机迫于生活压力,最终还是打...【详细内容】
2021-12-17  网约车情报分享    Tags:滴滴   点击:(7)  评论:(0)  加入收藏
蓝鲸TMT频道12月16日讯,据饿了么官方微信公众号,近日,在圆桌会上,蓝骑士与平台交流了配送安全问题。饿了么表示,线上将技术手段融入安全防护;线下将持续进行安全培训,并试点智能头...【详细内容】
2021-12-17    金融界  Tags:饿了么   点击:(23)  评论:(0)  加入收藏
开源最前线(ID:OpenSourceTop) 猿妹编译项目地址: https://github.com/restic/restic全球知名代码托管平台 GitHub 今天就重磅发布了今年的年度报告——《2021 年度 O...【详细内容】
2021-12-17  Python部落    Tags:   点击:(9)  评论:(0)  加入收藏
新京报快讯 据中国网络视听节目服务协会网站消息,12月15日,中国网络视听节目服务协会发布了《网络短视频内容审核标准细则》(2021)。中国网络视听节目服务协会组织有关短视频平...【详细内容】
2021-12-16    新京报  Tags:短视频   点击:(11)  评论:(0)  加入收藏
今年以来,国家网信办针对一些粉丝量大、关注度高的网站平台“头部账号”法纪意识淡薄,滥用网上影响力,传播错误导向内容,污染网络生态等突出问题,会同相关部门,指导各地网信办,要求...【详细内容】
2021-12-16    网信中国微信公众号  Tags:网信办   点击:(8)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条