您当前的位置:首页 > 手机百科 > 小米

小米移动搜索中的AI技术

时间:2020-06-21 16:48:51  来源:  作者:

一、背景

以深度学习为代表的 AI 技术近年来在搜索推荐场景中得到广泛的应用,对用户 Query 和内容侧的理解不断深入,用户体验得到显著提升。

搜索是一种典型的 AI 应用,关键技术包括 Query 分析 、内容理解、文本相关性计算以及排序等。从统计机器学习到深度学习,算法结合大数据将搜索引擎精度不断的提升。本次分享以部分技术为例探讨小米移动搜索中应用的 AI 技术。

小米移动搜索中的AI技术

 

小米的移动搜索主要有两个场景,MIUI 的主搜索入口,以及浏览器中搜索提示。小米的移动搜索针对移动端搜索的特点,致力于为用户提供精准便捷的体验。实现了应用、内容、服务的直达。例如搜索视频时,直接够唤起爱奇艺/腾讯视频等 App 观看特定选集。

覆盖小米体系和外部合作方内容,以下是部分合作垂类内容提供方:

小米移动搜索中的AI技术

 

今天分享的技术内容分几个部分:

  • 文本相关性
  • 意图识别和词权重
  • 点击模型排序

先介绍下搜索系统的典型结构:

小米移动搜索中的AI技术

 

最基本的搜索架构大体上也都有这样几个部分,百度、搜狗、神马、360等各大搜索厂商采用的基本架构都是类似的,包括:

  • 前端模块
  • Query 分析模块,负责计算意图/词权重/同义词和 Query 改写等。
  • 取得 Query 分析结果后,发送请求到各索引中进行结果召回。包括关键词召回、向量召回等。通常还会在这个阶段完成低级别特征的计算和粗排。
  • 将上述结果进行高阶特征生成和重排序(精排),排序后对结果再做一些处理逻辑后返回给前端。

搜索与推荐系统的处理过程有不少类似的地方。

二、文本相关性计算

问答和新闻 Query 场景下,文本相关性计算的精度对搜索体验的影响显著。

2.1 问题的定义:以查询 Q 和文档 D 的标题为例,计算相关性分数。

2.2 挑战:缺词,多词,逆序,临近,同义词…

中文的文本相关性计算是一个比较复杂的问题。

例如:

小米移动搜索中的AI技术

 

举一个简单的例子,第一个问答中的两种表述存在差异;第二个例子中,在句子中插入不同的字符,对语义的影响也存在不同。

我们设计了两个基本模型解决文本相关性计算的问题,最终使用两个模型融合的结果。

2.3 相关性 GBDT 模型

首先介绍使用 GBDT 模型计算 query 和 document 文本相关性。通过特征工程从人工标注数据中进行学习。有如下几大类特征:

小米移动搜索中的AI技术

 

在图中的样本打分为1的样本,query 中的核心词 " 33集 " 在查询结果中没有命中,核心词未命中是模型中很强的一个特征。这两句话在浅层语义上差异也很大。在 " 锦绣未央:唐嫣受伤 " 中主体有 " 锦绣未央 " 和 " 唐嫣 ",而在 query " 锦绣未央33集 " 中主体是 " 锦绣未央 " 和 " 33集 " 。打分为2的样本,主体葱爆海参对海参做了限定,但没有超出海参的范畴。

在匹配特征设计中需要分析命中词权重、是否命中同义词、未匹配词是否为停动词等,例如 query 中的词没有在 document 中出现。在上图中标注3分的例子中,去掉不重要词 " : ",整个 query 依然是连续命中,该项特征得分就较高。还有就是同义词的处理,这里需要同构离线挖掘同义词的表。类似的特征还有编辑距离,逆序对的数量,考虑词权重的匹配等等。

相关性计算还有一种方法是使用用户行为日志,利用用户更多点击和未点击文档构建训练样本对。与经典的基于关键词匹配相关性算法相比,DNN 模型极大的提高了语义相关性的判断范围和准确性,对于长尾查询的效果也更好。DNN 模型使用的训练样本数据量比较大,我们的场景中目前用到亿级别样本。下图以 C-DSSM 为例 ( 基于微软的论文 ) 。中文与英文相比处理有一点差异,需要先分词之后是取单字和词的 embedding,另外这里推荐 trainable 的 embedding 。模型能够学习出查询与文档的量化表示,并计算相似度。我们还做了一些改进包括输入层增加额外信息。

小米移动搜索中的AI技术

 

获取 DSSM 模型处理的结果后,进行模型融合,利用好两种模型的优势。

人工标注样本的优点是精度高,交叉标注可以使得准确率达到90%以上。从用户行为中收集的样本,样本精度大约只有70%,优势是数据量大长尾覆盖度好,能将 query 与 document 的语义结果放在同一个向量空间。以下是两种方式比较具体结果:

小米移动搜索中的AI技术

 

三、意图识别与词权重

首先看下意图识别的例子,根据输入来识别出不同的意图:

小米移动搜索中的AI技术

 

输入是 " 男士用洗面奶洗脸的正确方法 ",在识别出意图后,放到 " jingyan " 、 " zhidao " 等垂类索引中去搜索,能够提升性能并为后续的排序等流程提供信息。

这个项目早期解决的方法是词典+规则的方式,这种方法是精度高、依赖人工挖掘,覆盖度有限,规则之间可能冲突,维护成本高。后来改进为在词典+规则的基础上,使用LR 和 DNN 两个模型计算意图分数。

使用 FTRL 优化的 LR 模型做意图识别能获得在线学习的方法的好处,是因为意图是动态变化的过程,这使得线上模型能够快速的更新。这里将意图识别建模分为多个二分类问题;构建的特征有 N-Gram 、长度特征、首位位置特征等;单类别的样本量在千万级别。此外还使用了 DNN 模型做意图识别,把多类别的样本放到 DNN 模型中,需要数量保持一定程度的均衡。

在对 query 进行分词后,还需要计算分词结果的词权重,最容易想到的方法是 IDF,这种方法比较简单应用在工业级系统中效果不够理想。因为一个句子具有整体含义,是一个上下文相关的问题。传统的方法是使用 CRF 模型来进行计算,目前 SOTA 的方法是用 BiLSTM+CRF 的方法。

小米移动搜索中的AI技术

 

四、点击模型排序

用户的浏览和点击等行为数据除了计算相关性还可以用来改善排序的效果。

移动搜索业务与传统的网页搜索有一个明显的区别,传统的网页搜索结果,不同的网页之间有类似的结构,移动搜索排序面临的一个挑战是异构结果。比如搜索结果中其字段表述的含义跟视频跟应用是不同的,视频里面分级、主演,应用是有哪家厂商发布/应用类型,这些信息在不同结果之间是对不齐的,网页搜索场景中的排序一般是同构结果排序。业务中采用了点击模型进行异构结果的排序。下面介绍几种点击模型: PBM 、Cascade Model 、DBN 。

小米移动搜索中的AI技术

 

4.1 点击模型—PBM

小米移动搜索中的AI技术

 

PBM 是一个比较简单的基于位置模型,即结果与用户看的概率、实际看的概率来决定。

4.2 点击模型-CM

假设用户看结果是带有顺序的状态,过程如下:

小米移动搜索中的AI技术

 

4.3 点击模型-DBN

使用 DBN 的假设包括,第一点是用户点过,并不代表对结果完全满意,即这是概率事件。另外一个假设是给出的所有结果中,并不一定有用户满意的结果,用户可能都不太感兴趣而放弃搜索。DBN 的训练过程中用到了 EM 算法。

小米移动搜索中的AI技术

 

我们使用了多模型组合并对模型针对移动搜索场景做了额外的优化。模型中考虑是否有图以及结果的大小等带来的 bias 。

例如下图的 query = " 赵薇老公 ",改进效果对比:

小米移动搜索中的AI技术

 

五、总结

搜索推荐的整体架构:

小米移动搜索中的AI技术

 

作者:宫士敏,小米大数据部算法团队 Leader,带领团队构建了小米移动搜索算法体系。研究领域主要包括搜索引擎、机器学习、推荐系统等。对搜索中的相关性计算、排序、NLP 等相关技术有深刻理解,并对深度学习在搜索推荐领域应用有丰富的实践经验。毕业于中科院计算所,之前在搜狗搜索负责网页搜索算法相关工作。



Tags:小米移动搜索   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
一、背景以深度学习为代表的 AI 技术近年来在搜索推荐场景中得到广泛的应用,对用户 Query 和内容侧的理解不断深入,用户体验得到显著提升。搜索是一种典型的 AI 应用,关键技术...【详细内容】
2020-06-21  Tags: 小米移动搜索  点击:(43)  评论:(0)  加入收藏
▌简易百科推荐
1. 隐私保护:设置-密码与安全-其它密码,将隐私密码 打开,这样朋友借你手机使用时,打开隐私内容时需要验证密码。默认是关闭的。 2. 公交卡/银行卡/门卡/钥匙:出门乘坐公交车时,排...【详细内容】
2021-12-23  渡.    Tags:小米手机   点击:(12)  评论:(0)  加入收藏
身边有很多在用小米手机的朋友反应手机经常耗电快,才用了不久就需要频繁充电,到底是使用习惯问题还是电池这么不耐用呢?小米手机耗电快?可能是这几个功能没有开启!其实手机的续航...【详细内容】
2021-12-20  吨吨喝饱了    Tags:小米手机   点击:(4)  评论:(0)  加入收藏
跟电脑一样,小米手机使用久了,手机内存里就会留下很多垃圾,情节严重的还会造成内存不够用的情况。那么,小米手机怎样快速清理垃圾呢?今天就来教大家5个方法,赶紧随我一起来看看吧...【详细内容】
2021-12-14  码不亭蹄    Tags:小米手机   点击:(19)  评论:(0)  加入收藏
11月9日,小米高管乔忠良在小米社区发帖,分析了许多MIUI用户反应的耗电较快的原因。可以看到,定位服务未关闭、长时间开启应用(游戏、视频、音乐等)、屏幕未设置自动熄屏和屏幕保...【详细内容】
2021-11-10    游侠网  Tags:MIUI   点击:(56)  评论:(0)  加入收藏
自从MIUI12.5被诟病bug多、体验差后,MIUI12.5增强版也相继推出,而小米在这几个月也花了不少心思去优化,而目前MIUI12.5上线了一个新功能受到了众多米粉的欢迎。 起因在于网上有...【详细内容】
2021-11-05  小G数码    Tags:MIUI   点击:(35)  评论:(0)  加入收藏
随着发布会的召开,红米Note11系列也揭开了全貌,价格的确很感人,但有很多机友都在纠结一个问题,那就是到底买红米Note11Pro还是红米Note10Pro? 其实就拿价格来说,刚上市的红米Note1...【详细内容】
2021-11-01  暖笑科技    Tags:红米   点击:(596)  评论:(0)  加入收藏
最近有不少粉丝朋友向我咨询说:“自己的小米手机发热量很大,以及耗电非常快,问我有没改善的方法或者解决的方法!”答案当然是有的,我们只需对它们做以下几个设置就可以有很好的改...【详细内容】
2021-10-08  小俊技术分享    Tags:小米手机   点击:(128)  评论:(0)  加入收藏
智能手机时代手机我们每天都在使用,大家对手机耗电问题非常敏感,时时刻刻都在关注手机当前所剩余的电量是多少。手机使用越久耗电越快,电池也越不耐用,无论是安卓机还是苹果机,无...【详细内容】
2021-08-24  迅维手机快修    Tags:小米手机   点击:(105)  评论:(0)  加入收藏
1、长按HOME键,可以进入近期任务管理器,可以一键清理任务缓存。2、MENU键+下音量可以截图,不过现在米键(小米手机1,小米手机1S )可以直接截图了,更加方便。3、照片电影在小米手机的...【详细内容】
2021-08-04  爱看科技的K    Tags:小米   点击:(78)  评论:(0)  加入收藏
这一期我们来讲解下小米手机如何关闭烦人的广告?其实只要关闭3个监听开关,就能有效解决!具体是哪3个一起来看看!一、关闭个性化广告推荐打开手机上的【设置】 在【设置】页中点...【详细内容】
2021-07-07  小俊技术分享    Tags:小米手机   点击:(347)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条