摘要:
随着深度学习等技术的发展,人工智能应该会更加深入地与算法保举相结合,技术会更为理智和人性化,进一步克服当前存在的缺陷,从而生产出真正优质的内容。昨日,《人民日报》刊载了一篇题为《新闻莫被算法“绑架”》的文章。文章中指出,一些痴迷于技术算法的新闻客户端愈发“简单粗暴”。点开某篇文章之后,就会迅速被大量相似内容刷屏,而且无法拒绝。《人民日报》认为,媒体被算法、流量和点击量绑架,而削弱了对新闻真实、全面、独立等准则的坚守。
随着人工智能的发展,算法保举越来越成为了科技界乃至媒体圈推崇的技术手段。从长远角度来看,算法保举是技术与时代发展到必然程度所出现的一定现象。算法保举在全球范围内都已成为一种不成阻挡的趋势,而且随着时代的发展,算法保举一定会成为未来内容领域的主流之一。
当然,在算法保举发展的过程中,也不成制止地出现了一些问题。在《人民日报》的文章中,指出了算法保举中存在的简单粗暴、低质量等一系列缺陷。这些问题是确实存在的,也不该回避。虽然目前算法保举非常火爆,但还需要更加理智和人性化。如果能提升技术水安然安祥树立正确的态度,相信在未来,这些问题也是可以被克服的。
一、算法保举种类颇多,应用领域愈发广泛
算法保举,就是利用用户的一些行为,通过数学算法,推测出用户可能喜欢的东西。保举算法大致可以分为基于内容的保举算法、协同过滤保举算法和基于知识的保举算法。
基于内容的保举算法,是按照用户的爱好和关注过的条目(Item)而进行保举的。好比你看了《死神来了》第一部,那么基于内容的保举算法就会发现这个电影的后四部和你之前不雅观看的内容有很大的联系,并加以保举。
这种方法有效地制止了Item冷启动的问题。所谓冷启动,就是如果Item未被关注过,那么其他保举算法就很少会去保举。但基于内容的保举算法则否则,它可以分析Item间的关系,从而实现保举行为。
不过,这种方法也有毛病,就是Item有很大程度上的重复可能。好比你看了一则关于马航的新闻,那么很多保举就可能是你浏览过的,甚至是内容一致的新闻。此外,基于内容的保举算法很难提取到如音乐、电影等多媒体内容的特征,因此很难进行保举。而目前的解决措施是给这些Item人工打标签,耗费成本较大,不太划算。
协同过滤算法的原理是保举兴趣相似的用户喜欢过的内容。好比你的伴侣喜欢《死神来了》,那么也会保举给你,这便是最简单的基于用户的协同过滤算法。别的还有一种是基于Item的协同过滤算法。二者都是将用户的全部数据读入到内存中进行运算的。此方法训练过程较长,但训练完成后保举过程快。
基于知识的保举算法是通过构建领域本体或建立必然的规则进行保举,也有将此方法归为基于内容保举中去的。
还有一种方法是混合保举算法,即以加权或者串联、并联等方式对上述方法进行融合。
基于多种多样的算法保举,全球范围内的新闻媒体开始逐渐使用这种方法向用户推送新闻。
在这方面最早的应该是Facebook。2012年,Facebook在广告领域开始应用定制化受众功能,“受众发现”这一概念得到了大规模应用。一年前,Facebook颁布颁发新的动态消息演算机制。这一计划来自于对上千位用户的调查,依据结果对算法进行改善。对此,Facebook发言人体现,阅读时间比点赞更能反映兴趣。
Facebook通过该项调查发现,以点赞、留言和分享为基础的算法,并不足以代表哪些文章对使用者更有意义,好比人们不爱对严肃新闻或伴侣的哀痛消息进行点赞或留言。因此,将文章浏览时间纳入贴文排名机制中,以推测使用者感兴趣的文章类型。
在目前国内许多的资讯类网站中,也应用到算法保举,揣度用户感兴趣的内容并向其进行推送。算法保举不但可以被应用于新闻资讯方面,还可以应用于其他方面。
好比亚马逊所使用的主流保举算法,就是基于物品相似性和用户浏览、喜欢、购买等数据的协同过滤保举,,即用户纬度和商品纬度。
由于不依赖用户而基于商品的相似性,所以不会有冷启动问题。但也因为不依赖用户,所以比较死板,缺乏个性化保举。这一算法广为人知,但越是简单的算法要达到好的效果就越难,特别是这种转化率极低的算法。在国内,也有许多电商平台在应用这种算法。好比“猜你喜欢”、“相似保举”等功能,就是这种算法的具体表现。