您当前的位置:首页 > 手机百科 > iphone百科

苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?

时间:2024-03-26 12:25:16  来源:51CTO  作者:

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

 

 

全面发力AI的苹果,再出新研究!

 

随着人工智能技术的发展,我们熟悉的“Hey Siri”或将成为历史。

 

苹果团队最新出炉的论文《利用大型语言模型进行设备指向性语音检测的多模态方法》,集中于这一问题的研究:不使用“Hey Siri”这样的特定短语触发智能语音助手,可行吗?

 

结果是:有希望。苹果推出的多模态系统在设备指向性语音检测任务上的错误率比单一模态(文本或音频)的模型要低,分别降低了最多39%和61%。并指出,未来将在音频字幕和声学场景分类等领域发力,提供更好的虚拟助手交互体验。

 

现在,人们与GPT、Kimi的聊天愈发轻松。相较而言,与Siri、智能音箱等语音助手的交互还比较机械,它们好像也经常“get”不到我们的意思。

 

这一次的AI赋能,或许到了语音助手们的show time了。

1.苹果的论文说了什么?

 

 

与虚拟助手的交互通常以一个预定义的触发短语开始(Hey Siri),然后才是用户的命令内容。

 

为了使与助手的交互更加直接自然,放弃触发短语直接开始交互是一种优化思路。为了验证这个思路的可行性,研究人员使用智能手机捕获的语音以及背景噪音的声学数据训练了一个大型语言模型。

 

研究人员写道,该模型部分建立在一个版本的OpenAI的GPT-2之上,“因为它相对轻量级,有可能在智能手机等设备上运行”。

 

论文描述了用于训练模型的超过129小时的数据和额外的文本数据,但没有指定进入训练集的录音来源。

 

这项研究尝试利用非文本信号来增强 LLM,以解决在真实生活场景中,背景噪声和语音重叠带来的识别问题。在文本信息之外,这项研究使用了各种多模态信息,包括从预训练音频编码器中获得的声学特征,以及 1-best 假设和语句级解码器信号,来自 ASR 系统的声学成本和图形成本。

 

通过对所有模态进行联合学习,对系统进行微调,设备可以更加聪明地决定是不是要启动“Siri”(见下图 )。

 

图片图片

研究表明,苹果提出的新模型能够比仅使用音频或文本的模型做出更准确的预测,并且随着模型规模的增大而进一步提高。除了探索研究问题之外,目前尚不清楚苹果是否计划取消“Hey Siri”触发短语。

 

这项研究已上传至Arxiv(但尚未经过同行评审,想要阅读完整论文的朋友可以移步:https://ieeexplore.ieee.org/document/10446224)。

2.六位苹果作者,一半来自Siri

 

七位作者中有六位隶属于苹果公司,其中三位在Siri团队中工作。

图片图片

Siddharth Sigtia在苹果的Siri团队担任高级科学家,从事声学建模。

 

图片图片

 

 

 

 

 

 

 

 

 

Panayiotis Georgiou在Siri团队担任机器学习工程师,研究重点是人类交流分析、行为信号处理、语音处理(包括语音识别、去噪、语音活动检测)以及机器学习(重点是深度神经网络)。在入职苹果之前,他曾在高校供职多年,拥有非常深厚的学术背景。图片图片Matt Mirsamadi同样是Siri团队的机器学习工程师,博士期间的两段实习经历都在微软。图片

 

 

 

 

 

 

 

 

 

3.新技术的另一面:无触发语意味着全程监听吗?

 

2014 年,苹果推出了 "Hey Siri "功能,用户从此不必在按下按钮,只使用语音即可完成交互。

十年过去了,人们还记得Siri诞生之初,人们对虚拟助手的空前期待。谷歌内部也曾认为Siri的交互方式将对自家的搜索业务产生灾难性的冲击。

然而,Siri的进化远不及想象。如何在技术与隐私保护间取得平衡,是苹果长期以来的难题。

Siri处理音频数据的方式曾受到多番争议。2019年,《卫报》报道揭示,苹果的质量控制承包商在处理Siri数据时经常听到从iphone收集的私人音频,包括医生和患者之间的敏感对话。两年后,苹果以政策变化作出回应,包括在设备上存储更多数据,并允许用户选择不让他们的录音用于改进Siri。2021年,加利福尼亚州一起集体诉讼指控Siri即使在未激活时也被打开。

"Hey Siri "的工作方式使得Siri可以听取尽量少的音频,直到听到触发短语才开始录音或准备回答用户的问题。斯坦福大学人类中心人工智能研究所的隐私和数据政策研究员Jen King表示,消除“Hey Siri”提示可能会增加人们对我们的设备“始终在监听”的担忧。

除了用户隐私的限制外,苹果的管理不力也是在AI上落队的原因。据报道, Siri 团队在 2018 年处于 "混乱状态",其开发因管理层在技术开发方向上的内讧而受到影响。而其设计团队又坚持要求Siri能提供“近乎完美的答案”,而放弃了当时还不算成熟的AI生成方式,就这样与风口失之交臂。

放弃造车后,苹果必须全力在AI赛道上奔跑,以挽回年初以来持续呈现颓势的股价和投资者对未来发展的信心。Siri无疑是绝佳的入口,在AI的加持下进化,全面落地于苹果生态,给用户带来新的智能交互体验。

现在,没有时间仔细“打磨”大模型的苹果,已经与谷歌、百度等国内外多家科技巨头洽谈并寻找合作的可能。

苹果这位“实用主义”的科技明星,在全力追赶AI后,能重夺王冠吗?

参考链接:

1.https://www.technologyreview.com/2024/03/22/1090090/Apple-researchers-explore-dropping-siri-phrase-amp-listening-with-ai-instead/

 

2.https://blog.routinehub.co/the-history-of-siri-and-its-impact-on-todays-technology/

 

3.https://the-decoder.com/apple-struggles-with-ai-and-siri-report/



Tags:多模态   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
钉钉AI升级多模态:能根据图片识人、翻译、创作、多轮问答
新浪科技讯 3月28日午间消息,钉钉AI助理迎来升级,上线图片理解、文档速读、工作流等产品能力,探索多模态、长文本与RPA技术在AI应用的落地。基于阿里通义千问大模型,升级后的钉...【详细内容】
2024-03-28  Search: 多模态  点击:(11)  评论:(0)  加入收藏
苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto) 全面发力AI的苹果,再出新研究! 随着人工智能技术的发展,我们熟悉的“Hey Siri”或将成为历史。 苹果团队最新出炉的论文《利用...【详细内容】
2024-03-26  Search: 多模态  点击:(6)  评论:(0)  加入收藏
全面转向生成式AI,苹果推出300亿参数多模态大模型
相较于英伟达、微软等大型科技股,苹果今年的表现令人失望不已,股价年内跌逾10%,且失去了“全球市值最高公司”的宝座。背后原因很简单,苹果在这场人工智能(AI)竞赛中落伍了。为...【详细内容】
2024-03-18  Search: 多模态  点击:(12)  评论:(0)  加入收藏
多模态AI大模型赋能移动机器人!受益上市公司梳理
财联社3月3日讯(编辑 若宇)移动机器人赛道近期关注度逐步上升。GTC 2024将于3月18至21日在加州圣何塞会议中心举行,英伟达计划发布机器人领域最新突破成果。英伟达大概率是通过...【详细内容】
2024-03-04  Search: 多模态  点击:(36)  评论:(0)  加入收藏
多模态RAG应用:跨越文本与图片的智能交互
近年来,多模态RAG(Retrieval-AugmentedGeneration)应用的兴起引发了人们对人工智能技术发展方向的广泛关注。传统的RAG应用主要基于文本的输入和输出,而随着GPT4-V的发布,多模态R...【详细内容】
2024-01-29  Search: 多模态  点击:(64)  评论:(0)  加入收藏
简易百科:什么是多模态大模型?
简易百科:什么是多模态大模型?随着人工智能技术的不断发展,多模态大模型作为一种新型的机器学习技术,逐渐成为人工智能领域的热点话题。多模态大模型能够处理多种媒体数据,如文本...【详细内容】
2024-01-29  Search: 多模态  点击:(174)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: 多模态  点击:(69)  评论:(0)  加入收藏
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
量子位 | 公众号 QbitAI谷歌扳回一局!在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GP...【详细内容】
2023-12-22  Search: 多模态  点击:(117)  评论:(0)  加入收藏
被高估的Pika,被低估的多模态AI
原文来源:甲子光年作者|苏霍伊编辑|王博图片来源:由无界 AI生成多模态 AI 正处于爆发前夜。从 GPT-4V 的“惊艳亮相”,到 AI 视频生成工具 Pika 1.0 的“火爆出圈”,再到谷歌 Gemi...【详细内容】
2023-12-12  Search: 多模态  点击:(193)  评论:(0)  加入收藏
多模态大模型活跃,A股探底止跌
每经记者:刘明涛 每经编辑:彭水萍今日,A股低开后下探,三大指数盘初均跌逾1%,截至上午收盘,上证指数跌0.56%报2952.85点,深证成指跌0.66%报9490.41点,创业板指跌0.43%报1884.01点,市场...【详细内容】
2023-12-11  Search: 多模态  点击:(88)  评论:(0)  加入收藏
▌简易百科推荐
苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto) 全面发力AI的苹果,再出新研究! 随着人工智能技术的发展,我们熟悉的“Hey Siri”或将成为历史。 苹果团队最新出炉的论文《利用...【详细内容】
2024-03-26    51CTO  Tags:多模态   点击:(6)  评论:(0)  加入收藏
苹果手机投屏到Windows电脑,帮父母轻松攻克手机难题
明窗净几夜未央,键盘轻敲解忧忙。父母笑颜消难题,孝心科技共光芒。QQ、微信、小红书等社交软件不仅年轻人在用,老年人也逐步使用社交软件建立起自己的朋友圈。但这些“新”软件...【详细内容】
2024-03-18  AirDroid    Tags:投屏   点击:(7)  评论:(0)  加入收藏
苹果iPhone快充,为何27W成极限?三大原因道破真相
最近有小伙伴私信 der,说国产手机都卷到 200W 快充了,苹果 iPhone 最高怎么还是 27W 功率?有人说,27W 够用了,反正 30 分钟能够充至 50% 电量;有人说,是苹果摆烂,故意不做快充恶心人...【详细内容】
2024-02-22  科技好兄der    Tags:iPhone快充   点击:(24)  评论:(0)  加入收藏
Apple Pencil如何连接iPad?这里提供详细步骤
如果你刚拿起一支Apple Pencil,想和iPad一起使用,你需要先连接设备。将Apple Pencil与iPad配对的方法因你拥有的铅笔而异。一旦你将Apple Pencil连接到iPad,你就可以利用这些方...【详细内容】
2024-02-03  驾驭信息纵横科技    Tags:Apple Pencil   点击:(42)  评论:(0)  加入收藏
苹果的电池健康度,80%和100%到底有多大差别?
很多果粉在购买新机后,都会有个小习惯,那就是查看手机电池的健康度。由此也产生了一个疑问,手机从100%掉到80%,究竟有多大的区别?80%的健康度,是否是衡量更换电池的准则呢?想要查看...【详细内容】
2024-01-22  科普DoReMi  今日头条  Tags:电池健康度   点击:(34)  评论:(0)  加入收藏
iPhone抹掉数据后能恢复吗?看完这篇文章你就知道了!
随着科技的飞速发展,智能手机已经成为我们生活中不可缺少的一部分。如果手机出现卡顿、运行缓慢等问题,那么抹掉数据可以帮助清理手机的缓存和临时文件,从而提高手机的性能。但...【详细内容】
2024-01-19  数据恢复软件    Tags:iPhone   点击:(60)  评论:(0)  加入收藏
苹果微信无法登录?解决方案来啦!让你的微信重回正常!
当我们遇到微信无法登录的问题时,可能会感到焦虑和困惑。苹果手机微信无法登录的问题可能是很多原因导致的。在解决这个问题之前,我们先要分析可能的原因,才能提供相应的解决方...【详细内容】
2024-01-18  数据恢复软件    Tags:苹果微信   点击:(59)  评论:(0)  加入收藏
如何退出DFU模式的3种方法,看看有没有你喜欢的
什么是DFU模式?DFU是Device Firmware Upgrade的缩写,代表设备固件更新,在iOS升级或降级过程中使用。除了苹果标志出现在iPhone、iPad或iPod的黑屏上之外,什么都没有了。它与iPho...【详细内容】
2024-01-11  驾驭信息纵横科技    Tags:DFU模式   点击:(93)  评论:(0)  加入收藏
iPhone语音备忘录怎么导出?这3种方法任你选择!
作为iPhone用户,我们应该会经常使用语音备忘录来记录一些重要的信息。有时候,我们可能需要将这些语音备忘录导出,以方便分享或备份。iphone语音备忘录怎么导出?今天,小编将为大家...【详细内容】
2024-01-11  数据恢复软件    Tags:iPhone   点击:(93)  评论:(0)  加入收藏
苹果手机音量设置技巧,不用可惜了
很多苹果手机新用户,在刚开始使用苹果手机时,即使把来电铃声音量加到最大,在拿起手机接电话时,依然觉得来电铃声很小,然后就开始怀疑苹果手机是不是有质量问题? 扬声器喇叭是不是...【详细内容】
2024-01-02  五无无13  今日头条  Tags:苹果手机   点击:(57)  评论:(0)  加入收藏
站内最新
站内热门
站内头条