您当前的位置:首页 > 新闻资讯 > 科技

使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice

时间:2023-06-21 20:13:58  来源:机器之心Pro  作者:

作者:董倩倩

近年来,大规模语言模型(LLMs)建模在 NLP 领域取得了许多突破,特别是 ChatGPT 的成功,正引领大家迈入一个新的 AI 时代。截止目前,基于 encoder-decoder 框架的模型在语音处理任务中仍占主导地位,而基于语言模型(LM)的方法还处于初期探索阶段。AudioLM 和 VALL-E 作为前期工作已经证明了利用离散语义单元(Semantic Units)和离散声学单元(Acoustic Units)联合语言模型建模在音频生成任务上的有效性。

基于此,字节跳动的研究者们提出了基于语音离散单元的语音到语音翻译(S2ST)框架 PolyVoice。PolyVoice 有两点突出贡献:

(1)decoder-only:使用 decoder-only 框架实现直接的语音翻译,同时能够容纳多源的训练数据。

(2)textless:构建了基于 units 的音频 LM 用于语音翻译,可以用于非书写语言。

论文地址:https://arxiv.org/abs/2306.02982

demo 地址:https://speechtranslation.Github.io/polyvoice/

语音到语音翻译(S2ST)是一项具有挑战性的任务,因为它需要同时解决自动语音识别(ASR),机器翻译(MT)和文本到语音合成(TTS)中的所有难题。与传统的级联方法不同,直接建模的方法具有低延迟和简化 pipeline 的优点。现有的 S2ST 直接建模的方法可以根据模型是预测连续的梅尔谱图特征还是离散单元进一步分类。近来,基于 units 的方法变得越来越受欢迎,有如下几点原因:

(1)基于 units 的方法可以将语音的离散单元视为一种 “伪语言”,可以适用现有的 NLP 技术;

(2)基于 units 的方法缓解了谱图的学习难度;

(3)基于 units 的方法可以通过无监督的方式获取离散单元,可以对非书写语言进行建模。

Semantic Units 和 Acoustic Units 是两种常用的语音离散单元。Semantic Units 主要用于捕获语音中的语义内容。Acoustic Units 也可以被称为 Codec Units,最初用于在有限的带宽下传输高质量的语音信号。

PolyVoice 介绍

PolyVoice 是一种基于语言模型的 S2ST 框架,能够处理书写和非书写语言。PolyVoice 使用通过自监督训练方法获得的离散单元作为源语音和目标语音之间的中间表示。PolyVoice 由两部分组成:

Speech-to-Unit(S2UT)翻译模块,将源语言语音的离散单元转换为目标语言语音的离散单元;

Unit-to-Speech(U2S)合成模块, 在保留源语言语音说话人风格的同时合成目标语言语音。

下图是 PolyVoice 的整体架构

Speech-to-Unit(S2UT)翻译模块

通过使用通过自监督训练获得的离散单元,从连续语音表示中去除语义无关的信息。S2UT 利用语言模型学习基于语音离散单元的跨语言生成。

1. Semantic Unit Extractor:S2UT 通过 Semantic Unit Extractor 对原始语音进行处理。首先使用 k-means 聚类离散化 HuBERT 输出的连续表示,进而合并重复 units 的连续序列来压缩序列长度,这样可以减少计算成本,并有助于收敛。

2. 基于 units 的跨语言语言模型(U-XLM):U-XLM 将源语言 units “” 翻译为目标语言 units “”。U-XLM 的 prompt 形式可定义为:Translate [src lang] unit “” to [tgt lang] unit: “”。

3. S2UT 的训练:为了解决在现实场景下跨语言 units 平行数据稀缺的问题,如下表所示,PolyVoice 适配地修改了提示符,为各种类型的数据源(例如 ASR, MT 等)构建训练样本,然后通过参数共享的方式训练模型。

U-XLM 有几个突出特性,有处理书写和非书写语言的能力、多语言建模功能,以及通过利用大量无标注数据进行 zero-shot 预测的能力。这些特性使 U-XLM 成为推进语音到语音翻译研究的一个有潜力的框架。

Unit-to-Speech(U2S)合成模块

1. Unit-to-Speech 语言模型(U-SLM):与 VALL-E 一样,U-SLM 也包括一个自回归模型和一个非自回归模型。在 PolyVoice 中,输入为源语言和目标语言的 Semantic Units 以及包含源说话人说话风格的 Codec Units。

2. SoundStream codec:SoundStream 的 encoder 用于生成包含源说话人说话风格的 Codec Units,decoder 将 U-SLM 预测的 Acoustic Units 重构为语音波形。

3. Duration model:离散单元的时长信息对于合成语音的稳定性非常重要。PolyVoice 使用 LM 来预测时长信息。具体地,如上图右下角所示,合并后的源 Semantic Units、合并后的目标 Semantic Units 和源时长值序列(D)作为提示输入到 Duration LM 中。Duration LM 基于输入的提示信息预测目标时长值序列,并对每个目标 Semantic Units 进行相应次数的重复操作。

实验分析

作者在两个 S2ST 基准数据集 EMIME 和 CVSS 上验证了 PolyVoice 的性能。

S2ST 实验

ASV 评分用来评估在输出语音中保留源说话人音色的能力,ASR-BLEU 用来测评翻译质量。通过实验作者给出了一些结论:

1. 当真实的目标翻译序列可用时,PolyVoice 展示了更好的语音克隆能力。

2. PolyVoice 在翻译质量方面略有下降,但在语音质量方面有显著的提升。翻译质量下降可能是由于无监督的音频离散化会引入信息损失。语音自然度提升则可能是因为大规模语言模型的数据容纳能力可以带来更好的生成效果。

为了验证 PolyVoice 在非书写语言上的有效性,作者在不使用西班牙语的任何文本监督情况下,评估了一个英语→西班牙语 S2ST 系统,ASR-BLEU(18.3)的结果表明 PolyVoice 生成的西班牙语语音在语义上是可理解的。

分析和消融实验

1. Decoder-only 和 Encoder-Decoder 两种框架的对比

Decoder-only 模型带来了 3.9 个 BLEU 的显著改进,当用 U2S 代替声码器合成语音时,缩小了性能差距,证明了 U2S 后端的鲁棒性。

2. 多任务训练

U-XLM 在涉及的多个任务(包括 S2ST、ASR、ST、MT 和 TTS)上都取得了可观的性能,验证了 Decoder-only 框架的通用建模能力。

3. U2S 模块的优化

从实验结果发现从 U2S 中去掉时长模型,WER 会急剧增加,可能是由于 units 本身不包含与音素一样多的时长信息。因此,在使用无监督训练得到的离散单元时,时长模型是必不可少的。此外,作者额外训练了一个中英的多语言 HuBERT 模型(mHuBERT_zh_en)作为 Semantic Unit Extractor,实验对比发现更大的模型可能会生成更好的 Semantic Units。

结论

PolyVoice 是一个基于语音离散单元的 S2ST 框架。实验结果表明,基于 units 的 S2ST 系统在 ASR-BLEU、ASV 和自然度方面优于现有系统。此外,作者还证明了 PolyVoice 在不使用文本信息监督的情况下在非书写语言场景中的能力。由于 PolyVoice 性能与语音离散单元的质量高度相关,未来的工作将持续研究如何更好地进行语音离散化。



Tags:LLM   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
一文解析如何基于 LangChain 构建 LLM 应用程序
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - LangChain ,本文将继续聚焦在针对 LangChain 的技术进行剖析,使得大家能够了解 LangChain 实现...【详细内容】
2024-03-07  Search: LLM  点击:(31)  评论:(0)  加入收藏
有了LLM,所有程序员都将转变为架构师?
编译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)生成式人工智能是否会取代人类程序员?可能不会。但使用生成式人工智能的人类可能会,可惜的是,现在还不是时候。目前,我们正在见...【详细内容】
2024-03-07  Search: LLM  点击:(19)  评论:(0)  加入收藏
一文读懂大型语言模型LLM
在当今的技术世界中,人工智能正以前所未有的速度发展和演变。这一领域的快速发展得益于先进的机器学习算法、海量数据的可用性以及计算能力的显著提升。特别是,在自然语言处理...【详细内容】
2024-01-02  Search: LLM  点击:(81)  评论:(0)  加入收藏
SQL应用于LLM的程序开发利器——开源LMQL
译者 | 朱先忠审校 | 重楼我相信你听说过SQL,甚至已经掌握了它。SQL(结构化查询语言)是一种广泛用于处理数据库数据的声明性语言。根据StackOverflow的年度调查,SQL仍然是世界上...【详细内容】
2023-12-27  Search: LLM  点击:(77)  评论:(0)  加入收藏
生成式人工智能潜力的释放:软件工程师的MLOps和LLM部署策略
译者 | 李睿审校 | 重楼生成式人工智能最近的爆发标志着机器学习模型的能力发生了翻天覆地的变化。像DALL-E 2、GPT-3和Codex这样的人工智能系统表明,人工智能系统在未来可以...【详细内容】
2023-12-18  Search: LLM  点击:(118)  评论:(0)  加入收藏
构建更好的基于LLM的应用程序的四大秘诀
作者 | Adrien Treuille译者 | 布加迪自从OpenAI发布首个ChatGPT模型以来,人们对生成式AI的兴趣激增。基于大语言模型(LLM)的应用程序现处于企业思考生产力和效率的最前沿,用于...【详细内容】
2023-12-13  Search: LLM  点击:(137)  评论:(0)  加入收藏
解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了
大语言模型 (LLM) 压缩一直备受关注,后训练量化(Post-training Quantization) 是其中一种常用算法,但是现有 PTQ 方法大多数都是 integer 量化,且当比特数低于 8 时,量化后模型的...【详细内容】
2023-11-17  Search: LLM  点击:(145)  评论:(0)  加入收藏
LLM量化包与传统投资策略的对比分析
随着科技的发展和金融市场的变化,投资者们在寻求更有效的投资策略时,开始关注量化投资。LLM量化包作为一种先进的量化投资工具,与传统投资策略相比,具有许多独特的优势。本文将...【详细内容】
2023-11-17  Search: LLM  点击:(132)  评论:(0)  加入收藏
LLMs应用框架:LangChain端到端语言模型
在当今数字化时代,语言处理技术的重要性日益凸显。大语言模型(LLMs)作为其中的重要分支,已经在多个领域取得了显著的进展。然而,如何将这些模型应用到实际场景中,实现端到端的自动...【详细内容】
2023-11-16  Search: LLM  点击:(168)  评论:(0)  加入收藏
什么是 LLM (大型语言模型)以及如何构建LLM?
来源:Mangesh Gothankar在本文中,我们将了解如何从零开始构建 LLM(大型语言模型)。你可能会问,为什么要做这样的事情?是这样的,LLM 在无数应用中都非常有用,从头开始构建一个 LLM,你...【详细内容】
2023-11-09  Search: LLM  点击:(90)  评论:(0)  加入收藏
▌简易百科推荐
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11    上海证券报  Tags:英特尔   点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11    工人日报  Tags:AI   点击:(2)  评论:(0)  加入收藏
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(2)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(2)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(8)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(9)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(2)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(5)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(7)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
站内最新
栏目相关
  • · 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
  • · AI“复活”亲人成生意,哪些红线待划定?
  • · 谷歌推出适用于安卓设备的“查找我的设备”网络
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · 国家数据局局长刘烈宏:充分发挥数据要素价值 培育新质生产力
  • · 谷歌Chrome巨变:第三方Cookie的终结将重塑互联网格局
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条