您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

喻国明:从"今日头条"的四次升级,看算法分发的价值迭代

时间:2019-12-10 13:39:46  来源:  作者:
算法型信息分发给传播领域带来权力结构的改变,同时也使算法面临人与机器争夺社会权力的质疑。传统媒体掌握社会信息结构控制权的时代已经过去,以算法为代表的大数据技术形塑着信息的社会传播效果。但这并不意味着技术控制了社会的信息传播结构,"算法推荐导致视野变窄"这样简单因果关系从未被实证研究的结果证明过。算法是人写的,有着多种类型与价值取向。技术、人和社会信息结构展现出了更加复杂的图景。今日头条的信息推荐算法,被认为是国内、乃至全球最具代表性的信息推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整和修改。研究表明,算法推荐不是一成不变的,算法型信息分发在不断迭代中提升着"有边界的调适",并增强了其社会的适应度与合法性。

1.算法型分发:

关于"信息茧房"的学术争论

人工智能时代,算法分发已然是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但与此同时,算法强大的功能和权力内涵,尤其是算法在新闻传播领域的应用,开始面临严重的质疑与挑战。为解决大数据信息超载问题应运而生的、带有算法推荐功能的资讯类App("今日头条"、"一点资讯"等),从面世的第一天就备受质疑:使用这类APP是否会导致我们只看得到自己感兴趣的、认同的内容,进而所有人都活在自己的小世界里,形成"信息茧房"效应?有人甚至把它提升到"会导致一个民族的智能水平下降的危险"的高度。因此,厘清算法的技术逻辑以及对社会信息传播产生的影响,在传播学、计算机科学等相关领域具有重要意义。

有学者指出,在大数据时代,庞大的数据赋予算法巨大的传播导流能力。英国文化研究专家斯科特•拉什(Scott Lash)总结认为,在现代社会媒体和代码无处不在,其对于传播的影响力越来越存在于算法之中。大卫•比尔(David Beer)指出,这种影响力包含两层含义:第一,体现了算法发挥的功能,包括分类、过滤、搜索、优先、推荐、判定;第二,由于基于算法的决策常常被认为是理性、中立、高效、值得信赖的,算法这一概念本身就具有影响力的内涵。大量以此假设出发的研究表达了对算法推荐型信息分发导致"信息茧房"的担忧,即认为使用算法推荐技术的资讯类APP的人会出现视野变窄,进而导致"群体极化"。

喻国明:从"今日头条"的四次升级,看算法分发的价值迭代|德外荐读

也有学者对此提出不同看法,认为算法本身并不具有社会权力,而是算法联合即算法与人的结合(algorithmic associations)在发挥作用。算法运作过程中会和"规则、人、过程、关系"等相互作用,因此要特别考虑算法的情境性(situatedness)。姜红和鲁曼关注了这种人与非人因素的交织、相互作用,运用"行动者网络理论"(actor-network theory)指出算法、专业新闻机构和用户这些行动者共同编织着一张传播之网。无论是算法自身,还是算法联合,都深刻影响着新闻业。

Michael DeVito考察了Facebook的算法运作机制,通过对其公开发布的专利、新闻稿、博客等进行内容分析,概括出九大算法价值要素:朋友关系、用户公开表达的兴趣、用户先前的参与、用户含蓄表达的偏好、发布时间、平台优先级、页面关系、用户的负面表达、内容本身的质量。Dubois, E., & Blank, G.最新的研究成果发现,总体而言,人们对于信息回音室效应的担心是被夸大了的。尤其是那些对政治感兴趣的读者,实际上会受到好奇心的驱使,去消费更多样的内容,视野并不会受限。基于这样的理论争论和前人研究,算法型信息分发发展到今天,尤其是在科技经济社会飞速发展的中国,算法型信息分发发生了哪些变化?其与人工分发彼此交叠的部分有哪些?各自适宜的区位是哪些呢?算法型信息分发的变化及迭代逻辑正是本文研究的重点。

 

2.智能算法技术的崛起:

传播领域"常规"的变局与解构

算法型信息分发最为普及的定义是Resnick和Varian在1997年提出的,指推荐系统向客户提供商品信息和帮助用户决定应该购买什么商品,模拟销售人员帮助客户完成购买的过程(Resnick P , Varian H R., 1997)。早期的算法型信息分发被应用于电子商务领域,目前已在各个领域被广泛应用,信息领域亦然。从广义上讲,算法是一种编码程序,被定义为"为了解决问题而输入机器的一系列指令"。

从信息生产的角度看,算法型信息分发重塑了新闻生产机制。算法型信息分发带来的新闻生产方式是"新闻内容+数据化精确制导"。精确指向特定用户的数据引擎已经成为新闻生产的标配,新闻生产的精英主义正在被用户思维和互联网思维所代替。这意味着在算法登堂入室的时代,传播新闻时所倚重的逻辑是"用户本位"的,传统意义上新闻传播中"传播者本位"的精英主义逻辑正在消解,算法型信息分发模式从一开始就是沿着用户的需求的逻辑不断提升和迭代的。

算法型信息分发在一定程度上决定着信息流向、信息重要程度,以及用户对信息的关注度。在传统新闻生产中,传送新闻文本环节就是将制作好的新闻文本,通过报刊的出版发行、广播电视节目的播出等传送给受众的过程。传统新闻生产对新闻文本传送是大众化、标准化基础上的规模化的,在内容呈现上是千人一面的。传统媒体掌握内容入口和分发渠道的控制权,信息以单向、单一的方式在相对封闭的渠道流动,形成塔奇曼所谓的"新闻常规"。就传播领域而言,新闻产业在内容采集、分发和盈利模式上已经形成一整套相对稳定的规则和传统。于政治学而言,规则和传统以及路径依赖,为形成相对稳定的制度创造了条件。但随着互联网技术的普及和进步,数字内容分发渠道全面占有与分割传统的社会信息供给结构。

不同于传统媒体时代内容生产和渠道发行是两个完全分开的环节,互联网时代的内容生产、内容入口和内容分发乃至信息反馈都是在技术支持和数据作用之下融为一体的,换言之,它们的边界是模糊的,彼此之间形成了相互融通难以分割的一个整体。用户所能见到的内容已经成为数据化生产和加工以及数据导流、精准分发以及场景化商业变现的工具和手段。因此,在内容生产过程中的平台型媒介机构,就越发重视数据和智能化的算法对内容采制、内容分发、场景到达、用户接受等全环节的重要影响。

在讨论"算法导致信息回音室"的时候,人们往往将"算法"视作一种单一的、同质性的存在,似乎算法只有一种推送逻辑。实际上,早在2014年,明尼苏达大学计算机系Nguyen, T. T.等学者使用电影评分和推荐网站MovieLens的数据就发现,不同的算法推荐方式会导致不同的"过滤气泡"效应。不同于基于内容的推荐算法,MovieLens所使用的算法是"基于物品的协同过滤算法"(item-item collaborative filtering)——"依据了和你相似的其他人喜欢什么",这有助于向用户推荐自己本不会接触到的更多样内容。

大部分实证研究结果都没有支持"算法推荐导致视野变窄"这样一种简单的结论,而是展现出了更加复杂的图景。"回音室"、"过滤气泡"是技术、人性、社会结构共同作用的结果。它的消除既需要技术优化,也需要媒体的平衡报道、社会信息结构的多元化构造,还需要社会评议机制的完善以及市场创新的竞争节律、人们制度化参与渠道的拓展等等。算法有着多种类型,并且在不断地调整、变化。人们在算法推荐平台上看到的内容,从来就不是单纯被机器所决定的。

概言之,在技术层面,算法推荐有着不同的类型、不同的原理。被广泛使用的协同过滤算法,实际上并不会缩减人们的视野,甚至有时能打开更大的世界。"回音室"、"过滤气泡"是技术、人性、社会结构共同作用的结果,不能归结为技术本身。
 

3.人机互动下算法逻辑的价值迭代:

从"算法没有立场和价值观"到

"技术必须充满责任感和充满善意"的升级

那么,当前算法型信息分发与人工分发彼此交叠的部分有哪些?发生了哪些变化?本文以"今日头条"为案例,搜集分析了"今日头条"相关资料、市场数据,以及"今日头条"官方公布算法原理等材料,对算法型信息分发的变化进行讨论。

新闻价值观念是指新闻主体用来选择和衡量新闻价值客体的标准。在"编辑分发"模式中,新闻价值观念主要体现在新闻从业人员的实践(如新闻筛选、排序、版面设计)或新闻机构的内部规范之中,而对于算法型信息分发模式来说,新闻价值观念则内嵌于代码的设计和编写之中。传统大众媒体时代,把关人的研究主要集中在传播者身上,主要研究把关人(个人或组织)特征对把关活动的影响;到了网络传播时代,受众在传播的价值实现过程中主导性地位日益显著,"传-受"身份重合,把关人研究的重心转移到受众身上,由此便存在将传统把关人(即内容生产与传播一方)研究弱化的问题。

随着大数据技术运用到新闻传播领域,技术型互联网平台公司日益占领了传播渠道,机器算法在新闻分发中占据主导地位,此时,把关人理论面临着全新现实改变。记者、编辑等传统把关人在进行信息筛选时所遵守的职业规范和新闻伦理并不约束算法工程师或程序员。信息把关,从某种程度上演变成一种传播权力的无形转换——从人工编辑向智能算法让渡。传统的新闻价值观念已然不能精准地解释当前业界的新动态和新趋势。这是否意味着算法本身没有自己的价值观念可言呢?

算法型信息分发最初实践展现出明显的"用户本位":"你是谁"、"你怎样"决定了"推荐给你什么内容"。它强调"用户是信息的主人",基于算法技术,根据网络用户特征建构用户画像,即通过收集用户的社会属性、浏览习惯、阅读行为甚至性格星座等信息,抽象出用户阅读需求的共同特征并梳理用户的需求比重模型,为每个用户贴上"信息标签",据此搜索并推荐与用户阅读需求最契合的内容。推荐算法让人们从海量信息中解脱了出来,减少了在纷繁复杂的信息中去挑选、去寻找的不安全感和焦虑感。2012年成立的"今日头条"就是基于此行为和理念的第一家将算法推荐引入其中的新闻移动客户端,并以此获得了迅猛的发展,2014年就宣布每日活跃用户数量超过千万。当时,"今日头条"对外宣传的口径是公司产品"没有采编人员,不生产内容,没有立场和价值观,运转核心是一套由代码搭建而成的算法"。

2015年1月,"今日头条"创始人张一鸣在极客公园创新大会上发表主旨演讲,指出"今日头条"主要使用有关用户的以下数据来进行信息推荐:动作特征(包括点击、停留、滑动、评论、分享)、环境特征(包括GPS定位、是在Wifi环境还是3G环境、是否为节假日等)和社交特征(例如微博的关注关系、历史上发的微博)。在《机器替代编辑?》一文中,张一鸣介绍了"今日头条"的推荐机制:"当用户绑定微博登录后的5秒钟之内,系统会为用户建立起一个DNA兴趣图谱。这个图谱类似于一个数学模型,主要根据用户SNS账号上的标签、关注人群、好友、评论/转发、收藏等数据,以及用户的手机、位置、使用时间等数据提取而来。"这标志着"今日头条"已经坦言算法分发在"今日头条"的存在及其依据,新闻编辑把关权被算法所替代。

在之后很长一段时间内,一直引发争议的是,算法推荐原理始终处于未公开状态。问题的关键在于,算法分发是否把所有决策都交给了机器?用户的个人信息和数据成为输入信号,源源不断地被收集、储存、分析,这一决策过程实质上是在"黑箱"中进行的。社会呼吁算法公开透明化,打开算法"黑箱"。2018年1月11日,"今日头条"首次系统公开了其算法分发的技术原理:内容上主要考虑提取不同内容类型的特征做好推荐,用户特征包括各种兴趣标签、职业、年龄、性别等,环境特征基于用户在不同场景中信息偏好不同。结合这三个维度,模型会给出一个预估,即推测推荐内容在某场景下对某用户是否合适。

这三个变量都基于对用户信息的反馈,算法的内在逻辑迎合着用户需求。此外,有四个典型的特征会对推荐起到重要的作用:相关性特征、环境特征、热度特征、协同特征。其中协同特征通过用户行为分析不同用户间相似性,如点击相似、兴趣分类相似、主题相似、兴趣词相似等,依靠"兴趣探索"和"泛化"来实现价值的多样性。

此次公开的推荐系统原理包括今日头条算法模型设计维度与策略,以及头条的内容安全机制及相关举措。如何在线训练大规模推荐模型、典型召回策略的设计方法、多目标如何融合等业界关心的核心问题都在此次算法公开中得到解答。算法原则历来属于公司行业机密,这一次今日头条将算法原理公开,并接受建言,实属行业首例。很多人对算法的理解仍然停留在"算数"或者"魔法"。对算法而言,信任取决于透明度,如果你知道它的原理,明白它在做什么,并能对它可能出现的问题提出建议,看到它在不断提升,就有可能接纳并信任算法。

如果用形式化的方式描述,算法型信息分发实际上是去拟合函数。设计、监督并管理算法模型的依然是人,这意味着算法型信息分发并非把所有决策都交给机器。在追逐算法这一"热"趋势的同时,算法型信息分发的透明性提高,算法价值观念发生了根本的变化。张一鸣曾经表示,"技术必须充满责任感,充满善意",他将企业责任细化为三个方面,即平台治理、科技创新,以及内容建设和信息服务。抖音总裁张楠在回应新京报记者提问时也表示,不认同"算法没有价值观"的观点。"算法也是人写的","在抖音的顶层设计中,主流价值观和用户体验排在优先级最前列,商业变现是最次要的"。这一系列行为体现了一家平台对技术发展的责任感,不仅对算法应用起到积极推动作用,还回应了社会各界对算法型信息分发的质疑和误读。

4.算法型信息分发的控制变量升级:

以"有边界的调适"到社会适应度与合法性的获得

算法推荐是内容智能分发平台的"灵魂","今日头条"的推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整、修改和升级。显然,推荐算法并不是一成不变的,算法型信息分发在不断提升"有边界的调适"。

首先,从分发的文章数量和质量上看,通过算法加人工的半自动形式进行文章内容的质量辨别:从算法上自动标识质量分值、自动提取文章标签、自动识别错别字等方式进行文章质量判断;人工方面则需对有异议的文章进行二次审核。只有通过算法和人工双重考核的文章才能够进入个性化推荐的"分发池",以此保证算法所推荐的文章符合起码的质量标准,同时也限定了进入分发池文章的数量。有限的、高质量的文章保证了用户所接收到的个性化分发文章是可信赖的、真实的和比较理性的。

第二,从用户的精准画像和用户分群的角度看,通过数据融合、行为分析和算法优化,自动对用户进行精细画像的描绘和精准分群,使得机器能够自动辨别出哪些用户喜欢非个性化的内容、哪些用户喜欢个性化的内容。当机器辨别出该用户喜好非个性化内容时,客户端将自动呈现编辑人工推荐的内容。即使是对于喜欢个性化内容的用户,也不是一味地推荐用户喜欢的内容,而是按不同权重分发不同的内容。比如直接过滤掉停留时间短的点击,打击标题党;随用户动作增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。

第三,从个性化推荐能力提升的角度看,不断优化推荐算法的兴趣探索能力,动态调整不同类别新闻分发的权重,提高了个性化分发的能力,实现硬资讯与软资讯、兴趣与理性之间的平衡,保证喜好个性化分发的用户在能够得到自身所想看的东西之外,亦能获取其他方面的信息,即获取兴趣之外的兴趣点。

2018年1月3日,今日头条宣布招聘2000名内容审核编辑,由算法为王向人机结合转变。5月7日,今日头条再次采取措施整顿平台内容,邀请学者、媒体人、公职人员成立专家团队,参与平台内容与服务的监督,并在技术上推出国内首款人工智能反低俗小程序"灵犬",为用户提供更优质的信息。

智能时代算法的重要性日益彰显,"今日头条"公布的一系列算法的升级与调适体现了技术、人性、社会政治共同作用于我们能够看到的信息。"今日头条"在算法迭代中控制变量升级,正是以"有边界的调适"赢得更好社会适应度与存在的合法性,它是中国互联网飞速发展的一个典型样本。毫无疑义,虽然传统媒体掌握社会信息结构控制权的时代已经过去,以算法为代表的大数据技术形塑着信息生产与传播的社会形态与传播效果,但这并不意味着技术控制了社会信息结构,归根结底,算法是人写的,可以也应该有着多种类型,并且是在不断地调整、迭代和变化中的。就社会的整体传播效应而言,与其要求一家算法型分发平台"全面",不如在信息供给结构上鼓励多元化的算法平台的竞争与协同,这样所构造起来的社会内容的"供给侧"将会更为完善——选择性更多、个性化更强、内容维度更为完整。

总之,算法技术实际上并不会缩减人们的视野,恰恰相反,它总能为我们打开更大的世界。技术会带来更好的社会信息结构还是更坏的社会信息结构,决定者其实依然是人和无形的社会软制度。

编者按:

作者:

喻国明:教育部"长江学者"特聘教授,北京师范大学新闻传播学院执行院长、教授、博士生导师,CTR媒体融合研究院专家。

杜楠楠:中山大学博士研究生。

来源:

《智能型算法分发的价值迭代:"边界调适"与合法性的提升——以"今日头条"的四次升级迭代为例》,《新闻记者》2019年第11期。



Tags:算法分发   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
算法型信息分发给传播领域带来权力结构的改变,同时也使算法面临人与机器争夺社会权力的质疑。传统媒体掌握社会信息结构控制权的时代已经过去,以算法为代表的大数据技术形塑着...【详细内容】
2019-12-10  Tags: 算法分发  点击:(117)  评论:(0)  加入收藏
▌简易百科推荐
前言Kafka 中有很多延时操作,比如对于耗时的网络请求(比如 Produce 是等待 ISR 副本复制成功)会被封装成 DelayOperation 进行延迟处理操作,防止阻塞 Kafka请求处理线程。Kafka...【详细内容】
2021-12-27  Java技术那些事    Tags:时间轮   点击:(1)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  量子位    Tags:蒸馏法   点击:(11)  评论:(0)  加入收藏
分稀疏重建和稠密重建两类:稀疏重建:使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3:工程地址在: http://webdiis.unizar.es/~raulmur/orbslam/ DSO(Direct Sparse Odometry)因为...【详细内容】
2021-12-23  老师明明可以靠颜值    Tags:算法   点击:(7)  评论:(0)  加入收藏
1. 基本概念希尔排序又叫递减增量排序算法,它是在直接插入排序算法的基础上进行改进而来的,综合来说它的效率肯定是要高于直接插入排序算法的;希尔排序是一种不稳定的排序算法...【详细内容】
2021-12-22  青石野草    Tags:希尔排序   点击:(6)  评论:(0)  加入收藏
ROP是一种技巧,我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符,在本次getshell中,还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】
2021-12-15  星云博创    Tags:栈迁移   点击:(22)  评论:(0)  加入收藏
一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】
2021-12-15    晓掌柜丶韶华  Tags:排序算法   点击:(16)  评论:(0)  加入收藏
在了解golang的map之前,我们需要了解哈希这个概念。哈希表,又称散列表(Hash table),是根据键(key)而直接访问在内存储存位置的数据结构。也就是说,它通过计算出一个键值的函数,将...【详细内容】
2021-12-07  一棵梧桐木    Tags:哈希表   点击:(14)  评论:(0)  加入收藏
前面文章在谈论分布式唯一ID生成的时候,有提到雪花算法,这一次,我们详细点讲解,只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称,一般的雪花大约由10^19个水分子...【详细内容】
2021-11-17  小心程序猿QAQ    Tags:雪花算法   点击:(24)  评论:(0)  加入收藏
导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】
2021-11-04  华章科技    Tags:排序算法   点击:(40)  评论:(0)  加入收藏
这是我在网上找的资源的一个总结,会先给出一个我看了觉得还行的关于算法的讲解,再配上实现的代码: Original author: Bill_Hoo Original Address: http://blog.sina.com.cn/s/bl...【详细内容】
2021-11-04  有AI野心的电工和码农    Tags: KMP算法   点击:(36)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条