您当前的位置:首页 > 新闻 > 快讯

阿里文娱搜索算法实践与思考

时间:2020-04-22 13:30:59  来源:  作者:

导读:视频搜索是涉及信息检索,自然语言处理 ( NLP ),机器学习以及计算机视觉 ( CV ) 等多领域的综合应用场景,随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求,视频搜索技术的发展在学术和工业界都取得了飞速的发展,本次直播将以优酷为例,分享视频搜索的算法实践,首先介绍优酷搜索的相关业务和搜索算法体系,从搜索相关性和排序算法的特点和挑战到技术实践方案的落地,最后会深入介绍优酷在多模态视频搜索上的探索和实践。

本次分享主要包括:

  • 视频搜索简介
  • 基础相关性和排序模型
  • 多模态视频搜索实践

▌视频搜索简介

1. 业务背景

阿里文娱搜索算法实践与思考

 

优酷搜索为整个阿里大文娱提供了一站式搜索服务,范围包括优酷所有搜索入口,如 App 和 OTT 等,还包括大麦和淘票票。搜索的内容包括有版权的影、剧、综、漫影视库,用户上传的 UPGC 视频内容,影人库,演出,小说资讯等,这些都是文娱搜索业务需求,优酷搜索为其提供统一的搜索服务。

2. 评估指标

阿里文娱搜索算法实践与思考

 

搜索排序业务多目标的评估指标,如图所示,可以拆分成4个大类。搜索的用户价值主要体现在2个维度:

第一个维度为工具属性,指的是用户将搜索服务作为一个搜索工具,目标是找准找全。这是用户价值的基础,也是搜索的基础属性。从这个维度去评估搜索效果的好坏,主要从体验指标去衡量:跳出率、相关性、时效性、多样性等通用指标。视频搜索可播性是指由于受版权影响,有些视频在平台是不能播放的,能给用户提供更大价值的是那些可播的视频。此外,会用人工评测的方式对搜索的效果做横向纵向的对比,来衡量搜索的满意度。

第二个维度为分发属性,能让用户消费更多的内容,主要是视频观看的 VV 和消费时长,这些指标对搜索是非常重要的,是用户满意度的直接体现。搜索能够支持平台的宣发价值和广告会员的商业化价值,前提是服务好用户,用户体验好。

3. 搜索系统框架

阿里文娱搜索算法实践与思考

 

上图是搜索系统的整体框架,在2017年初步完成了搜索引擎相关中间件服务的升级,实现和集团搜索技术的战略拉通。从一个 query 搜索过程来理解各个模块的功能,比如说用户搜"大明风华",用户在手机上发起这一次请求,接入搜索网关之后,search planer 把这个请求发送到 QP 服务,即 query 理解的一个服务,对 query 做意图判定,成分分析,把这些信息传递到中间的引擎模块去做相应的检索,如粗排和精排的逻辑,将结果返回回来,再到一个 RankService 排序服务。

整个框架中间层是引擎,下面是离线的索引服务,左边是机器学习平台,包括特征的流式计算,模型的在线学习,后面主要介绍排序服务模块。

4. 搜索算法框架

阿里文娱搜索算法实践与思考

 

在引擎端,相关性主要是在 searcher 的精排下实现的,排序模型的介绍主要是预测模型这一层。整个排序服务包括预测模型、模型融合、业务策略,整体上保证了搜索体验和效率。

右图是整个搜索算法的大图,通过这里的介绍希望大家对视频搜索技术有一个全貌的理解,方便大家对后面内容的理解。

  • QP 服务在排序中的作用:首先在意图层面,会把用户意图细粒度的切分出来,对 query 的各个意图做成分分析,比如说 query 是"乡村爱情赵四跳舞",经过 QP 服务的成分分析后,判断乡村爱情属于一个节目名,赵四属于角色,跳舞是一个动作。
  • 意图识别后是排序和多媒体相关性,这两个内容后面再详细介绍。
  • 内容召回:主要是多媒体内容的理解,为什么要做多媒体内容理解,因为视频内容传递的信息非常丰富,不可能用文本标题全面表述,用户在搜索时表达需求差异非常大,存在语义鸿沟,各个业务的搜索都存在语义鸿沟,视频搜索中的鸿沟更大,所以不能把视频当成黑盒直接用标题概述。我们的问题是从什么维度去理解视频?得益于深度学习在各个领域的全面发展,现在有能力做相关技术,包括 OCR/ASR,对话的理解,通过 CV 的技术对人物、动作、物体的元素级的结构识别,视频的指纹,实体关联,比如某个视频是属于哪个 ip ( 电视剧/电影等 )。基于这些相关技术,不仅仅只是做标题的文本匹配,与相关性匹配密切的关联起来,能更好的帮助理解视频和视频间的关联关系。
  • 数据层:有实体的关系数据,能够通过技术挖掘这种关系;内容组织,通过图谱聚合、时效聚合、内容聚合,把内容聚合成更方便用户浏览的聚合形态。

▌相关性和排序内容

1. 搜索相关性

阿里文娱搜索算法实践与思考

 

这部分定义到一些具体的 query 和 doc 上,理解能够更全面一些。如上图:

  • 第一类 query,"佟丽娅主演的电视剧远大前程"和 doc 在文本上没有直接关系。只有通过内容理解的方式才能把这个 query 和 doc 关联上。
  • 第二类 query,"法不容情国语"和对应的 doc 没有关系,要结合 NER 和内容理解的方式才能更准确,对 doc 的意图理解更好。
  • 第三类是语义层面的匹配,相关性这一块是需要多个层次的匹配的。

下面分为4个层次详细分析:

阿里文娱搜索算法实践与思考

 

  • 基础特征。比较通用的是 term weight 和匹配矩阵,通过基础特征能够把文本匹配做的比较好。
  • 知识特征。对于知识特征的匹配需要其他辅助信息的补充才能做好的,首先通过内容理解的方式把 UPGC 视频中的一些元数据补充上去,利用 NER 等技术把视频的标题等成分识别准确。在这些基础之上,我们做 query 和 doc 之间的结构化的知识匹配,这块体验能够做的更好。
  • 后验特征。包括基于 query 点击的应用判断,知识结合做意图判断,意图和 doc 的匹配,Query_Anchor 是从 doc 维度统计的,哪些 query 是和 doc 是有关系的,能做一些文本的补充和意图补充,这种补充不是纯粹的统计,而是基于浏览模型,比如 UBM 和 DBN 等一些点击浏览的模型,去消除文本、吸引度的偏差,提高满意度,后面在相关性特征还会详细的去讲一下。
  • 语义。主要解决语义匹配,视频搜索存在很大的语义鸿沟,DSSM 表征形的 sentence 级别的语义向量去做匹配,这块是会在相关性层面去做。BERT 这一块是做知识蒸馏的方式,这块计算太复杂了,在排序层做的。SMT 不是在相关性和排序层面去使用的,是语义的扩展和 query 的改写,能丰富语义内容的召回。点击行为也是做一些语义层面的改写扩展。

结合这4个层次的匹配,是能够把搜索基础相关性的匹配做到一个比较好的状态。

2. 相关性数据集构建和特征体系

阿里文娱搜索算法实践与思考

 

左图是相关数据集的构建流程,为了衡量相关性的效果,需要标注数据集。首先要有一个标注规范,主要结合实际业务和用户需求来设定,并没有通用的标准。数据集我们标注了2、3年,有几十万的数据,通过外包同学去标注,不仅标注相关性的等级,还会对同等级的样本做偏序级的标注。我们对标注的质量和效率比较关注,左边的方式是采用 active learning 的思想去提升标注效率和质量,降低标注的成本。数据集也分为验证集和训练集,验证集主要针对特定问题去构建,具有一定的针对性,对不同验证集解决完问题之后,不一定对线上体验有正向的效果,因为它会带来对其他维度变差的情况,所以我们需要训练集和回归集的验证。右图是我们相关性算法的主要特征,大家可以参考下。

3. 语义匹配

阿里文娱搜索算法实践与思考

 

我们在2017年上线了一个 sentence 级别的语义匹配模型,模型结构比较通用简单,我们尝试迭代的过程比较多,具体参数是和语料相关的,不同业务参数差别比较大。需要特别指出,语料样本的选择,对语义模型特别关键。在日志处理过程中,没有点击的日志不能当作语义的负样本,垂直搜索引擎语义类 query 相对还是比较少的,需要借助外部的预料做训练,这和我们集团的一些搜索比如神马搜索,搜索日志对语义搜索效果的提升是非常大的。

表征形的语义模型,有一个好处是,doc 端的特征是可以离线计算的,可以在相关性层面快速高效的去做语义上的计算,确保基本的语义内容能够被召回,能够排到前面去,能够送到上层的重排序服务上,ranking service 上还有比较多的语义内容,能够做一些精细化的语义计算。

4. 排序特征体系

阿里文娱搜索算法实践与思考

 

排序特征体系,包括各个业务领域类的,基础匹配类的,query 统计类的。有一些是视频平台特有的,比如说实时的动态的处于宣发周期的一些特征,对控制节目的排序,可播性,宣发的效果是特别有帮助的;另外,内容质量的评估对视频平台是非常重要的,优酷的人工智能部有一个非常给力的 CV 团队,提供基于视频这种无参考质量的评价框架,能够对低层次的一些特征,比如对比度,亮度,中等的模糊块效应的失真,并综合各种画面质量去解决 UPGC 视频失真,模糊质量评价的难点,能够从视觉层面去理解视频,还有封面图/标题的质量去评判,可以很好的区分好视频和差视频。

在用户层面,用户行为的表征在很多宽泛搜索里都会应用,比如用户在频道页的搜索排序,OGC 节目宽泛意图的检索场面,用的会比较多。因为在很多通用的搜索中,这种宽泛意图的比率比较大。

5. 表征学习

阿里文娱搜索算法实践与思考

 

再介绍一个我们17、18年和达摩院一起把表征学习在视频搜索落地的方案。

上图是表征学习的模型,第一层是特征预编码的编码层,用视频元素、搜索意图、用户,这3类特征去分析。在用户维度,又划分了用户 id 和用户观看视频的序列;在搜索意图维度,有搜索的 id,搜索词的视频表达和文本编码的表达。在视频层,包括视频统计特征、视频播放点击量、视频文本编码、视频在整个 session 期间和其他视频的关系数据,来构建这些不同的特征域。

在第2层和第3层,这2个不同特征域之间的网络结构是相互独立的,通过稀疏的编码优化能够全链接到第1层。可以对高维特征进行降维,把高维特征信息投影到低维的向量空间中。第4层把不同域的表征信息,内部的编码,综合到一起,形成一个综合的多模态的向量融合,再经过上面的2层的全链接实现搜索用户意图和搜索视频维度的排序。

整个模型在性能优化后再计算层面是没有什么性能问题的,上线后分发效率提高明显,分发 ts 观看时长增加。

我们在上线后同样看到了一些问题:这种单一目标的排序模型,它的优化目标是 ts,就会忽略一些基本体验。比如,相关性约束对整个体验来说不一定在提高用户体验,可能在头部的一些效果上,我们行为比较多的一些搜索 query 上体验是提升了,但是中长尾的一些效果上其实是比较难以保证的,所以后面我们也是做了不同的尝试,把表征学习和其它的一些维度的排序效果相融合。

6. 多目标 Deep LTR

阿里文娱搜索算法实践与思考

 

上图为19年在排序方面的一些实践,多目标的深度排序学习。这里的多目标包括:相关性目标,rank 的 loss,entity loss。为什么有这些目标呢?我们其实是做一个整体的目标学习,我们要确保涵盖相关性技术体验的 loss,分发效率的排序 loss,实体匹配上的 loss。相对于表征学习的单一目标,我们这里要实现一个端对端的多目标的。

样本标注方面要综合时长和播放完成比,如果我们按照存点击数据,很多情况是和 ts 目标不一致的。如果只考虑视频时长,那么长视频就会被放在前面,如果只考虑播放完成比,那么短视频就会被放在前面,因为短视频就几十秒,很快就能播放完,长视频几十分钟,有的几个小时,不容易看完。所以我们会综合时长和播放完成比,对时长做分段的处理,在相同时长下作横向比较,形成一个不同时长视频的 label 分级,引导目标去学习。

这里正负样本采样比例1:8,是通过我们不断迭代调整的结果,并没有一个通用的方法。

▌多模态视频搜索

1. 多模态视频搜索

多模态搜索就是将语音,文字,图像等各种模态集中起来一起搜索。学术上也有很多和多模态搜索关联的,比如实例搜索,给定一个实例图像,搜索相关的视频片断,将视频转成文本,VTT 任务;AVS 视频搜索,输入一个文本,在视频中搜索相关的视频。这和我们今天的主题多模态视频搜索是非常契合的,学术界的方法也是比较多的,如把 query 和视频都映射到中间的一个维度,一个概念空间里面,再做相似度的匹配排序;最近也有一种思想是 video bert,采用 transformer 的思想把 video 通过端对端的解决方法,基于多模态视频搜索技术可以有很多新的搜索体验,下面讲一些优酷的实践。

刚刚讲的学术界方法对短小视频搜索效果是比较好的,但对长视频很难做到准确,视频很长,覆盖的范围很广,用这种表征的方式不容易覆盖那么多丰富的内容的,所以对工业界的视频搜索,不是端对端的解决方案,现在的做法是将视频模态信息通过降维的方式,都转换成文本的模态,对视频内容做细粒度的内容拆解,将图像,动作,人物,声音这些背景信息,通过 CV 检测方法识别出来,去做标签化,去完成降维。另外一种降维的方式是通过 OCR 和 ASR,光学文本的识别和语音识别的技术将视频中的对话信息转化成文字,关键字和主题的抽取,再去形成事件的分析和概念主题的理解。

阿里文娱搜索算法实践与思考

 

一个完整的视频可以分出不同的片段,然后形成 shot,关键帧,关键元素,通过对关键元素的分析,可以把动作场景人物做一些识别。举个例子,如上图,通过人脸识别可以识别出这个片段中出现了哪些人,"周六夜现场"能检测出岳云鹏,陈赫;"晓说"能检测出高晓松,通过 OCR/ASR 可以把视频中的对话结构化出来,然后做一些关键词的抽取。

阿里文娱搜索算法实践与思考

 

接下来将作更深次的讨论,如上图,从视频标题看是陶瓷,如果不做内容结构的分析,根本不知道里面在说什么。所以要对文本进行分析理解,在分析理解时,会有一个难点:这么多文字,需要一个完整的实体知识库,视频内容涉及的领域非常广,包含全行业的丰富的实体。辅助我们抽取核心内容的元素,比如"伯特格尔"是谁,是个人物,"塞夫勒","麦森"这些地名需要理解,以及实体链接和实体之间的关系的推理。这个视频是介绍欧洲陶瓷发展历史的,欧洲陶瓷是从哪里开始的,是从"塞夫勒"开始,是由"伯特格尔"这个炼金师发现出来的,很多对话内容是通过主体引用,要理解指代的实体,上下文引用的主体是需要识别出来的;另外一个就是实体之间的关系,比如"塞夫勒"、"麦森"是欧洲的城市,和中国,日本是什么关系,这种实体之间的关系是需要有的,否则对讲的什么事情是很难理解的,需要知识图谱辅助。在实体知识库的支撑下,候选的关键字通过分类模型得到关键字分级,分成核心关键词,相关关键词,提及的关键词,分完级之后,在相关性匹配上做的更有针对性。

2. 视频元素级知识图谱

阿里文娱搜索算法实践与思考

 

前面是视频理解的方式,如右图视频标题是李健 -《风吹麦浪》( 春晚歌曲 ),但是他是和孙俪一起唱的,标题里没有孙俪,用户经常搜索的内容是"孙俪李健合唱的风吹麦浪", 我们需要通过人物识别的方式把视频中的关键人物识别出来。在视频搜索中,需要多模态信息的辅助的,才能提高搜索准确率。左边是"甄缳传",通过视频元素级识别,可以把关键人物识别出来,并且可以把人物和角色,人物和 ip 之间的关系获取出来,检索时可以将具体人物出现的关键位置检索出来,以及台词,歌词,内容关键的一个场景的起止时间,如果用户在搜索"甄子丹的打斗视频",我们有相应的内容视频的聚合数据,用户可以搜到开始打斗的起始时间的。

3. 效果案例

阿里文娱搜索算法实践与思考

 

再举几个内容关键词在多模态视频搜索中的应用,如上图,搜索"军情解码张召忠",搜索结果中标蓝的这些是通过内容理解,人脸识别,多模态搜索召回的。搜索"军武次位面虎式坦克",通过对话理解提取出来的关键词,搜索"晓说以色列"也是类似的。这部分在搜索所占的比率不是很大,但是触发的效果还是非常明显的,效果提升100%。

多模态视频搜索的应用场景是非常广泛,目前还没有做到故事级别的理解,这块是需要继续努力的方向。



Tags:阿里   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
阿里云镜像源地址及安装网站地址https://developer.aliyun.com/mirror/centos?spm=a2c6h.13651102.0.0.3e221b111kK44P更新源之前把之前的国外的镜像先备份一下 切换到yumcd...【详细内容】
2021-12-27  Tags: 阿里  点击:(1)  评论:(0)  加入收藏
来源 | 零壹财经作者 | Chenglin Pua元宇宙在2021年成为炙手可热的当红炸子鸡,许多公司纷纷宣布进军。国外的有“All In”元宇宙的社交巨头Meta公司。芯片设计巨头英伟达也宣...【详细内容】
2021-12-17  Tags: 阿里  点击:(10)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  Tags: 阿里  点击:(20)  评论:(0)  加入收藏
阿里云和腾讯云都是非常好的云服务器平台,大多数用户完全不用纠结腾讯云还是阿里云,特别是微信开发用户,自然是首选腾讯云,其次是学生或个人以及财政紧张的小公司微型业务,腾讯云...【详细内容】
2021-12-14  Tags: 阿里  点击:(14)  评论:(0)  加入收藏
本系列为 Netty 学习笔记,本篇介绍总结Java NIO 网络编程。Netty 作为一个异步的、事件驱动的网络应用程序框架,也是基于NIO的客户、服务器端的编程框架。其对 Java NIO 底层...【详细内容】
2021-12-07  Tags: 阿里  点击:(17)  评论:(0)  加入收藏
本文作者宗志刚(花名瑄珉),网络领域从业十五余年,现任阿里云网络产品线资深技术专家,负责阿里云网络洛神平台的技术规划、架构设计以及网元产品研发工作。在刚刚过去的云栖大会上...【详细内容】
2021-11-02  Tags: 阿里  点击:(98)  评论:(0)  加入收藏
出品 | 搜狐科技作者 | 尹莉娜一年一度云栖大会,又到了阿里在技术上“秀肌肉”的时刻。自2019年发布首款RISC-V玄铁处理器,到去年发布AI芯片含光800,再到今年发布的通用服务器...【详细内容】
2021-10-22  Tags: 阿里  点击:(30)  评论:(0)  加入收藏
导读:本文的主题为阿里飞猪推荐算法探索实践,首先会介绍电商背景下主流推荐技术的发展,例如基于全空间的CVR预估技术的发展历程等 ( ESMM / ESM^2 / HM^3 );接着会重点结合旅行...【详细内容】
2021-10-21  Tags: 阿里  点击:(56)  评论:(0)  加入收藏
那天,小二去阿里面试,面试官老王一上来就甩给了他一道面试题:为什么阿里的 Java 开发手册里会强制不要在 foreach 里进行元素的删除操作?小二听完就面露喜色,因为两年前,也就是 20...【详细内容】
2021-10-21  Tags: 阿里  点击:(42)  评论:(0)  加入收藏
大家先思考一个问题,这也是在面试过程中经常遇到的问题。如果你们公司现在的产品能够支持10W用户访问,你们老板突然和你说,融到钱了,会大量投放广告,预计在1个月后用户量会达到10...【详细内容】
2021-10-19  Tags: 阿里  点击:(47)  评论:(0)  加入收藏
▌简易百科推荐
就公安部单独制定新的部门规章《道路交通安全违法行为记分管理办法》并于2022年4月1日起实施,公安部交通管理局李江平局长今天(2021年12月27日)向记者进行了详细解答。李江平...【详细内容】
2021-12-27    北京日报客户端  Tags:交通违法   点击:(7)  评论:(0)  加入收藏
为打造清朗的网络生态环境,营造安全、健康、绿色的网络空间,更好维护MCN的正常运营秩序。今日头条将加强对MCN机构的管理,保障创作环境与用户体验,管理MCN机构帐号在平台相关行...【详细内容】
2021-12-24    头条安全中心  Tags:今日头条   点击:(9)  评论:(0)  加入收藏
人力资源社会保障部、民政部、退役军人事务部、全国总工会、全国工商联五部门联合开展的“2021年金秋招聘月活动”正式启动啦具体有哪些活动?一起来看...【详细内容】
2021-12-24  人力资源和社会保障部    Tags:金秋招聘   点击:(5)  评论:(0)  加入收藏
有一种天体既是彗星,又是小行星。 艺术家描绘的“法厄同”。NASA / JPL-Caltech / IPAC每年12月中旬是双子座流星雨的爆发期。2021年的双子座流星雨极大期出现在北京时间12月...【详细内容】
2021-12-14  星空天文    Tags:流星雨   点击:(15)  评论:(0)  加入收藏
中国人民银行决定于2021年12月15日下调金融机构存款准备金率0.5个百分点(不含已执行5%存款准备金率的金融机构)。本次下调后,金融机构加权平均存款准备金率为8.4%。中国人民银行...【详细内容】
2021-12-07    中国人民银行  Tags:存款准备金率   点击:(18)  评论:(0)  加入收藏
新京报快讯 据支付宝微信公众号消息,在开放共享和安全有序的原则下,支付宝与中国银联携手加速推进互联互通。最新的工作进展如下:支付宝与中国银联在2020年开始基于条码互联互...【详细内容】
2021-12-03    新京报  Tags:支付宝   点击:(17)  评论:(0)  加入收藏
今起,进返京有新政,航班、铁路、公路具体实施方案如下—— 进返京人员,须持48小时内核酸检测阴性证明和“北京健康宝”绿码。48小时怎么界定?阴性证明的形式有无要求?...【详细内容】
2021-11-17    北京日报  Tags:   点击:(69)  评论:(0)  加入收藏
今天(9日),北京市小客车指标调控管理办公室公布“配置指标申请、京牌小客车变更或转移登记申请的资格审核结果的通告”。按照《北京市小客车数量调控暂行规定》实施细则(20...【详细内容】
2021-11-10    北京日报  Tags:小客车摇号   点击:(16)  评论:(0)  加入收藏
一月一度的汽车销量排行榜,近日正式出炉。虽然受到芯片短缺等因素的影响,许多车企的产量都有所下降,部分车型的价格有所上涨,但是在10月份的销量排行榜中,许多车型依旧获得了不...【详细内容】
2021-11-10  汽车资讯库    Tags:汽车   点击:(59)  评论:(0)  加入收藏
随着交易和会员规则的落地,北交所7件基本业务规则已全部发布,市场开市运行的基础制度准备完成。根据安排,北交所开市后,新三板精选层的公司将整体平移进入北交所,成为交易所的上...【详细内容】
2021-11-05  米多课堂    Tags:北交所   点击:(24)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条