您当前的位置:首页 > 电脑百科 > 人工智能

AI 改变千行万业,开发者如何投身 AI 语音新“声”态

时间:2022-07-28 14:40:59  来源:CSDN  作者:

从图灵测试到 AlphaGo 击败围棋世界冠军,AI 在近 10 年间再次进入新一轮的高速发展期。与以往不同的是,随着数字化的发展普及,AI技术开始进入千行万业,从技术界的热点宠儿,变成移动应用的常客。

AI 在行业应用中较为普及的,是使用 AI 中自动构建分析模型的机器学习技术(machine Learning,ML),用于人脸、文本等图像类识别,例如电商物流的智能分拣、智能安防监控、工业智能质检等。随着机器学习模型的发展强大,AI 正在用于语音等更复杂的信息识别,并逐渐应用于智能家居语音控制、智能交互等场景。不过,快速发展的AI 应用和机器学习模型,既是技术发展的焦点,也需要投入高成本、人力去开发,而聚焦自身业务场景的技术开发者更需要的,是可以轻松调用、通用的机器学习与 AI 应用技术。

HMS Core ML Kit 机器学习服务,交付前沿 AI 应用体验

AI 已经成为 IT 技术厂商需要重点打造的能力,例如在华为提供端、云开放能力服务的HMS Core 中,重点为开发者打造了 ML Kit 机器学习服务,覆盖了文本类、语音语言类、图像类和人脸人体类等各类 AI 场景和能力,涵盖了常用的基础 AI 应用能力和场景,例如海外旅游出行使用 ML Kit 文本识别和翻译以获取路标、菜单,视频会议使用ML Kit 图像分割能切换虚拟会议背景。在文本识别、文本翻译、图像分割、人脸检测、手势识别、文本嵌入这些 AI 能力之外,ML Kit 还拥有更前沿的算法模型才得以实现的 AI 能力。

例如在 HMS Core ML Kit 人脸人体识别服务中,除了静态人脸识别,还提供快速捕捉动态人脸信息的活体检测能力。ML Kit 活体检测甚至已经做到不需要用户配合做动作,就可以判断是真实人脸,还是恶意人脸图片攻击。另外 ML Kit 活体检测还可以将模板人像和人脸进行高精度比对,输出相似度值,进而判断两者是否为同一个人。

活体检测可在几秒钟内识别人脸

ML Kit 的活体检测采用全新的一个模型多个任务技术,联合华为“昇腾”推理库对AI模型的加速效果,量化后模型仅有 0.2M 大小,CPU 推理时延低至 0.01s;端到端同时检测人脸框和人脸关键 68 关键点,可以实时检测动作例如摇头,响应时延达到毫秒级别;在安全性方面可以有效防范各种类型打印攻击,视频攻击,面具攻击。

在实际应用中,例如对安全性和精准度要求更高的金融场景里,采用 ML Kit 活体检测,比对用户身份证照片和人脸检测结果,可以判断用户信息真实性,实现快速安全的身份核验流程,让 AI 识别可以真正有效助力互联网远程开户、刷脸支付等金融业务的开展。

再例如用于文本、文档、身份证、银行卡等文本类信息识别中,HMS Core ML Kit 文本识别汇聚了华为在 OCR 技术上的最新研究成果,支持任意角度的文本识别,能够对横竖排,弯曲文本精准识别的同时,还能对文本段落进行准确划分,对文本内容精确定位。

目前身份证识别是对精度、延时要求较高的 OCR 场景

另外在保证最高识别精度的同时,ML Kit 的文本识别在端侧已经支持 11 种文字检测,在云侧支持 20 多种文字,基本覆盖主流语种,能够服务全球用户。这种文本识别的广度,背后需要大量算法和研发工作去支撑。

对于更加抽象的语音数据的识别,由于增加了时间维度,使用机器学习识别也更加复杂。其中 TTS(Text To Speech 文本到语音)是 AI 声音识别中重要的应用场景,也是 AI 识别发展的重要方向。现在,HMS Core ML Kit 的 TTS 音色定制已经实现个性化的 TTS,模拟定制多种真人音色。TTS 语音要达到高度拟人、自然流畅(而不是早期 AI 语音的机器化和顿挫感),背后是华为技术团队采用深度神经网络技术对 TTS 模型训练、精细地调优,付出大量研发精力才得以实现。TTS 音色定制的应用场景非常广泛,在新闻小说的阅读、智能硬件、地图导航、服务类应用中,开发者都可以集成 TTS 能力,为用户提供实时、可替换、多音调的语音播放,极大提升和创新应用的交互体验。

TTS 音色定制的应用场景非常广泛

除了 TTS 音色定制,HMS Core ML Kit 采用语音识别、文本翻译、语音合成等多项 AI 能力,推出了音色模拟的 AI 同传解决方案。具体实现过程是将现场演讲者声音实时识别并转换为文本内容,对文本内容进行翻译,最终通过语音合成技术输出翻译后的音频流。在这个过程中,HMS Core 语音识别技术能够迅速将语音转换成文字,首字时延最低为 350ms;文本翻译技术则将文本以最快 200ms/300 字节文本的速率快速翻译。更具特色的是,通过 AI 音色定制,HMS Core AI 同声传译实现了用演讲者自己的音色进行同声传译,展现逼真同传效果。它还可支持跨语种个性化音色的快速定制,最快 5 句话即可极速定制个人喜好的音色,满足包括同声传译等不同场景不同用户的个性化诉求与合成体验。

HMS Core ML Kit 同声传译 APK 界面

像活体检测、TTS 音色定制、同声传译,这些都是 AI 应用技术发展中较为热门和重要的领域,而现在华为 HMS Core ML Kit 将这些需要大量算法模型支撑的 AI 能力开放出来,为开发者生态提供了及时和前沿的 AI 技术服务,赋能千行万业各类开发应用的 AI 智慧和创新体验,所有这些工作,也让华为 HMS Core 正在成为 AI 开发生态的重要主力军。

立即预约 HMS Core Discovery 直播,创造你的 AI 智能语音世界

为了做好开发者技术与服务,华为 HMS Core 提供了丰富和详实的开发文档、技术资料,在开发者中形成了良好的口碑。现在,华为 HMS Core 又在重磅打造一档针对开发者服务的技术解读系列直播栏目——HMS Core Discovery,每一期直播都会邀请行业大咖或者合作伙伴探讨热门技术、HMS Core 场景解决方案与案例。开发者可以非常直观高效地去了解目前热门开发技术与 HMS Core 开发能力特性。直播通过与开发者的互动交流与“对话”,对 HMS Core 生态技术竞争力深度解读,最终帮助合作伙伴实现用户和流量的增长与发展共赢。

现在,最新一期的 HMS Core Discovery 直播第 16 期将在 7 月 28 日 19:00 正式开播,主题《与虎墩一起,玩转 AI 新“声”态》,就是聚焦于目前 AI 语音语言的热门应用领域,本次直播将重点分析讲解 ML Kit 机器学习服务的语音语言类能力,如上文提到的 TTS、文本翻译、同声传译这些前沿的机器学习场景和应用,进一步展示 HMS Core 在 AI 与机器学习领域赋能开发者的前沿技术。

HMS Core Discovery 第 16 期:与虎墩一起,玩转 AI 新“声”态(扫码即可预约直播)

在直播中,ML Kit 同声传译能力将全新亮相,嘉宾将为开发者揭秘底层技术和设计,另外嘉宾也将为开发者讲解 ML Kit AI 翻译能力升级后的功能,例如语种扩充情况和翻译播报的功能。

除了技术讲解,直播还邀请到了抖音网红 IP“虎墩小镖师”,“虎墩小镖师”同时也是 HMS Core ML Kit 机器学习服务中 TTS 语音的合作伙伴,通过与抖音网红 IP 的破圈合作,HMS Core ML Kit 希望将最热门和真实应用场景的智能声音提供给开发者使用。

通过直播的内容,开发者可以了解到 AI 语音识别原理、应用场景、技术调用等实操细节,还可以获得 ML Kit 已经训练完成并开放的“虎墩小镖师”声音,去定制个性化的音色,应用于自己的业务场景中,为用户带来新鲜和具有创意的新体验。

AI 热潮正在深入千行万业,AI 应用开发的机遇窗口稍纵即逝,建议开发者持续关注 HMS Core Discovery 技术直播,深研开发热点背后底层技术逻辑,玩转 AI 新“声”态。



Tags:AI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Meta AI 全球市场扩张,并上线网页版 meta.ai
IT之家 4 月 19 日消息,Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表...【详细内容】
2024-04-19  Search: AI  点击:(2)  评论:(0)  加入收藏
从大模型爆发到AI PC面世 人工智能个人化时代来了吗?
中新网上海4月18日电(记者 郑莹莹 刘育英)1981年,IBM公司推出第一台真正意义上的个人电脑,开启了PC,Personal Computer的浪潮。联想集团(简称:联想)董事长兼CEO杨元庆还记得当年...【详细内容】
2024-04-19  Search: AI  点击:(3)  评论:(0)  加入收藏
OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型
IT之家 4 月 12 日消息,OpenAI 今日宣布,新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比,新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】
2024-04-12  Search: AI  点击:(11)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: AI  点击:(14)  评论:(0)  加入收藏
微软新 AI 专利获批:帮老板追踪、评估你的工作表现
IT之家 3 月 28 日消息,根据美国商标和专利局(USPTO)公示的清单,微软获得了一项关于人工智能的专利,主要基于员工对文档的处理,帮助老板评估员工的工作表现。微软在专利中概述了一...【详细内容】
2024-03-28  Search: AI  点击:(24)  评论:(0)  加入收藏
专访AMD Lisa Su博士:AI PC的根本能力会促使消费者更新换代
科技行业如今最热门的话题毫无疑问是AI(Artificial Intelligence,即人工智能)。2022年底ChatGPT横空出世,唤醒了这头一直沉睡着的“野兽”。一时间,各行各业都在讨论AI,畅想着AI带...【详细内容】
2024-03-26  Search: AI  点击:(18)  评论:(0)  加入收藏
AI 手机一加 Ace 3V 售价 1999 起,3月25日正式开售
2024 年 3 月 21 日,一加正式发布一加 Ace 3V 。它是首发第三代骁龙 7+ 移动平台,采用5500mAh 大电池 + 长寿版 100W 超级闪充的续航组合,配备全新 1.5K 护眼直屏,更有全场景 AI...【详细内容】
2024-03-26  Search: AI  点击:(20)  评论:(0)  加入收藏
联合国大会通过首个有关 AI 的决议草案
IT之家 3 月 22 日消息,据央视新闻消息,当地时间 3 月 21 日,联合国大会投票通过了第一个有关人工智能(AI)的决议草案,以确保这项新技术能够惠及所有国家、尊重人权并且是“安全、...【详细内容】
2024-03-22  Search: AI  点击:(10)  评论:(0)  加入收藏
YouTube 为包含 AI 生成内容的视频制定新准则
AI 正在迅速改变内容的制作方式。现在,AI 模型可以书写文字、生成图像、制作视频,甚至可以合成听起来令人震惊的真实声音。随着这种技术变得越来越容易获得,公司也开始努力解决...【详细内容】
2024-03-19  Search: AI  点击:(26)  评论:(0)  加入收藏
开发者再分享 OpenAI Sora 生成的短视频:树叶大象、彩虹瀑布等
IT之家 3 月 19 日消息,OpenAI 今年 2 月推出 Sora 模型之后,迅速成为 AI 圈内头条,能够基于用户的一句话,生成最长 1 分钟的视频,效果接近实拍。OpenAI 目前并未向公众发布 Sora...【详细内容】
2024-03-19  Search: AI  点击:(15)  评论:(0)  加入收藏
▌简易百科推荐
Meta AI 全球市场扩张,并上线网页版 meta.ai
IT之家 4 月 19 日消息,Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表...【详细内容】
2024-04-19    IT之家  Tags:Meta AI   点击:(2)  评论:(0)  加入收藏
重磅!Meta推出开源大模型Llama 3,性能直逼GPT-4
每经编辑:杜宇当地时间4月18日,AI 领域迎来重磅消息,Meta正式发布了人们等待已久的开源大模型Llama 3。与此同时,Meta首席执行官扎克伯格宣布:基于最新的Llama 3模型,Meta的AI助手...【详细内容】
2024-04-19    每日经济新闻  Tags:Llama 3   点击:(4)  评论:(0)  加入收藏
大模型下众生相:焦虑者、使用者和弃用者
大模型实际运用如何?文 | 周享玥编辑 | 赵艳秋 来源丨数智前线2024年,公认的大模型应用元年,不管是B端还是C端,都呈现出加速快跑的姿势。最近,我们和六位来自不同行业的大模型...【详细内容】
2024-04-18    投中网  Tags:大模型   点击:(10)  评论:(0)  加入收藏
AI圈公开的秘密:天下模型一大抄
抄袭已经成为AI世界公开的秘密。据The Information周一的文章,许多初创公司的AI聊天机器人很可能是采用了OpenAI和其他公司的数据开发的。这些机器人在某些任务上可以媲美GPT...【详细内容】
2024-04-17    华尔街见闻  Tags:AI圈   点击:(5)  评论:(0)  加入收藏
“AI+”进入中学课堂,家长何以很矛盾?
据4月15日《中国青年报》报道,近年来,随着ChatGPT等模型的快速迭代,生成式人工智能(AIGC)技术逐渐成为大众广泛关注的焦点。新技术的发展给各行各业带来新的可能和挑战,对教育领...【详细内容】
2024-04-17    工人日报  Tags:AI   点击:(6)  评论:(0)  加入收藏
Sora加入Adobe全家桶,视频改图加戏样样行
基于 Adobe 自己的大模型 Firefly 的能力,可以在视频素材上直接添加或减少内容,转场时感觉少点烘托背景的镜头,用 OpenAI 的 Sora 可以自动生成一段。Adobe 全家桶马上就要拥有...【详细内容】
2024-04-16    机器之心  Tags:Sora   点击:(3)  评论:(0)  加入收藏
光明日报:孩子用AI写作业,该担忧吗?
随着科技的发展,人工智能技术不断得到拓展与完善。而今,文字输出、信息检索、方案优化,乃至居家生活,越来越多的人已经离不开AI的帮助。与此同时,根据媒体报道,近期,一些“独具慧眼...【详细内容】
2024-04-16    光明日报  Tags:AI写作业   点击:(6)  评论:(0)  加入收藏
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?
出品|搜狐科技作者|郑松毅谁能想到,被誉为“最大原创段子手孵化地”的弱智吧,最近竟摇身一变成了——最佳中文AI训练语料库?由此受到启发,是否并不是训练AI的优质数据不...【详细内容】
2024-04-16  搜狐科技    Tags:优质数据   点击:(7)  评论:(0)  加入收藏
ChatGPT 应用商店?可能是一个万能应用程序!
OpenAI 在去年 11 月召开了一次开发者大会,首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示,它将很快推出一个市场,开发人员和非技术人员...【详细内容】
2024-04-12  视角先锋队    Tags:ChatGPT   点击:(9)  评论:(0)  加入收藏
Kyligence发布企业级AI解决方案!AI数智助理降低数据使用门槛
智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道,昨日大数据分析和指标平台供应商Kyligence(硅智信息)召开了数智论坛暨春季发布会,并分享和探讨Data+AI产品及解决方案在金...【详细内容】
2024-04-12    智东西  Tags:Kyligence   点击:(10)  评论:(0)  加入收藏
站内最新
站内热门
站内头条