极端实验:推荐算法如何探寻我们的兴趣边界?

  • 时间:
  • 浏览:1
  • 来源:大发pk10_pk10app客户端下载_大发pk10app客户端下载

声明:本文来自于微信公众号 另好几次 胖妹的世界(ID:we_the_people),作者:柳胖胖,授权站长之家转载发布。

算法到底给我们我们的信息环境更闭塞,还是更多元?机器让推荐和送达更容易了,但我们我们比以后懂了更多吗?这俩 世界两种生活不是就像是一套算法,只提供给你能不能的东西,这套算法两种生活不是也在进化?

新闻实验室的方可成老师在系统性地阅读了近年来发表在国外一流学术期刊上的研究后发现:使用社交媒体和算法推荐App的人,并这么明显总出 视野变窄的那此的难题,大多数人阅读的内容依然有相当的多样性。

“研究者们选用了 21 个月的数据。我们我们将用户分为两组,一组是根据算法推荐选用电影观看的,叫做“跟随组”;另一组是不理会算法推荐的电影,叫做“不理会组”。我们我们发现:算法向“跟随组”推荐的电影,无缘无故要比向“不理会组”推荐的电影更加多元化。也什么都有 说,根据算法的推荐选用电影,什么都有 进行打分,我我实在会让算法更好地学习到你的喜好,什么都有 给你推荐更多样的片子;而可能不根据算法的推荐来看电影和打分,反而会让算法给你推荐更窄的片子。也什么都有 说,在不使用算法推荐的情况报告下,用户的视野反而变窄得快一点 。”

学术的研究结果当然值得参考,不过,可能是针对另好几次 非常极端的内容消费用户,推荐算法又会带给他那此呢?基于另好几次 严谨的产品工作者的好奇心和动手欲,以及对那此那此的难题的困惑,我买了另好几次 新手机号,找了一台这么装过今日头条的廉价安卓测试机,现在开始英文英文英文了我的“反人类”探索之旅。

我的思路相当于是以后的:在今日头条上只关注另好几次 从体量上来说极其小众的内容领域,逐步成为它的资深内容消费者,什么都有 观察在这俩 过程中,头条会何如投喂我在这俩 兴趣领域的偏好,以及最重要的,最终头条不是会用这俩 领域的内容详细淹没我,我要必须看过这俩 领域的内容。

在第一次打开头条的以后,我是另好几次 空白未登录的情况报告,还这么任何操作行为或关注任何账号,头条推荐页给我的内容也是比较随机的,相对以社会新闻和热点内容为主,一些类内容随机分布各第一根。

什么都有 ,我先注册登录了一下,什么都有 在推荐内容的“更多”里,我忽略了头条置顶给我推荐的娱乐,健康,科技,体育和历史五大分类,什么都有 直接把列表拉到了最下方,关注了最小众的“收藏”领域。

并肩,我还一次性关注了头条推荐的 20 个收藏类的内容创作账号。收藏这俩 品类,主要中含的什么都有 文物和古玩类的内容,包括诸如字画、钱币和邮票等等累似 的都算,而我一些人对这俩 领域基本属于一无所知的情况报告。

关注完 20 人后,我还做了一件事,什么都有 把收藏标签移到了最靠近推荐标签的位置,以后内容阅读起来最方便,理论上,这也应该增强了系统判断给我推荐收藏类内容的权重。

今日头条App里默认进入的推荐页,前三位一般被国家重要新闻给指在了, 2 条是默认置顶, 1 条是人民网以后的官媒发布的热点新闻,从位置上来说,从第四条现在开始英文英文英文才不是经过算法推荐展现给你看的内容。

在第一次的刷新中,头条似乎还这么给我打上很强的"收藏爱好者“的标签,整个前 10 条就第一根和收藏相关的,剩下 9 条里,除了两条社会新闻两条娱乐新闻,其它五类内容各第一根。

在我第二次的刷新中,结果依然差很多,收藏必须第一根,社会娱乐两条,其它随机的五类内容(与第一次的不同)各第一根。

第三遍还是这么。

我判断头条并可能我什么都有 关注了一堆收藏类账号,就判断我只对收藏类的内容感兴趣了,可能我每次什么都有 在推荐流里刷下来看标题,还这么跟任何的收藏文章之间产生互动(转评赞),也这么和一些类的内容有过互动,什么都有 我的推荐流里无缘无故保持了以后的比例:10%的收藏类内容+不断更换的其它类内容。

不过我实在内容流里收藏内容很多,什么都有 在“我们我们也在用头条的”横向推人的流里,总出 了这么另好几次 情况报告,左右滑动的区域内一共能不能显示 10 个账号,其中含 9 个是收藏类账号。

从这里也能不能看出,对于荐人和荐内容,头条可能是采用分开的两套策略我猜测,账号推荐上,头条希望快速收拢以获取你的关注关系,增强它App内控 的连接,什么都有 直接给你推可能关注过的累似 账号,但内容推荐上,头条能不能你进一步有更多反馈数据后,才会逐步让某一类内容更多指在你的推荐流。

于是从新的一次下拉刷新现在开始英文英文英文,我做了这么一件事:对头条在推荐流里给我的每第一根收藏类内容,都点击进入文章,慢慢再慢慢地下拉到底部(当然我另好几次 字也没看进去),什么都有 点赞,点收藏,评论(一般就有几次字:真棒,好喜欢,不错,累似 的)。

相当于从第五次刷新现在开始英文英文英文,收藏类内容的比例终于现在开始英文英文英文变多(我为那此要说终于),并肩,推荐流里总出 我未关注的收藏类账号发的内容,我会在内容互动后并肩关注作者。

相当于从第 8 次现在开始英文英文英文,收藏类内容达到了150%的比例,而并肩推荐流里还现在开始英文英文英文总出 人文和历史类的内容。

我判断这两类内容会总出 ,是基于算法的“协同过滤”,可能想精通收藏的领域眼前 能不能非常了解文化和历史类的知识,以后才有益于判断各种文物和古玩的价值,什么都有 另好几次 “收藏爱好者”必然也得看文化和历史的内容。

(解释一下:常见的协同过滤算法有两种生活,两种生活是基于用户的(user-based),也即计算用户之间的累似 性,可能A和B的兴趣相近,这么A喜欢的电影,B也很有可能喜欢。另两种生活是基于物品的(item-based),也即计算物品之间的累似 性,可能电影C和电影D很累似 ,这么喜欢电影C的人,可能也会喜欢电影D。)

这能不能不能看出,尽管收藏类内容这么小众,但头条的算法依然找到了一批和我累似 的“收藏爱好者”,并把我们我们同样爱看的“人文和历史”内容推到了我的眼前 (尽管比例还很小,各第一根)。

(不过我实在关注了收藏的人,很相当于率会关注文化和历史类的内容,但反之貌似相当于率并非 ,文化和历史爱好者并非 对古玩钱币那此的有兴趣。什么都有 对于头条的机器算法来说,更好的推荐策略肯定是,给另好几次 对文化和历史有兴趣标签的用户在推荐流里偶尔夹杂第一根收藏类内容,视乎其反馈来决定不是推荐更多。头条算法架构师曹欢欢曾表示:“我们我们会留一要素比例流量,探索用户的兴趣,比如每几刷,或有一刷的位置什么都有 探索用户的兴趣,推荐一些模型不确认用户是以后感兴趣,什么都有 模型想探索一下,会有一些以后的流量。”)

说回我的实验,我在刷新后“对每条收藏类内容给予重度反馈什么都有 忽略其它一切内容”的行为快一点 获得了算法的角度重视,收藏类内容从比例来看快速升高,最多的以后达到了每 10 条里有 6 条收藏强相关的内容,相当于1- 2 条人文可能历史的内容,剩下 2 条还是社会热点和娱乐新闻。

什么都有 一般在前三条里,必有第一根是直接关注账号发的收藏内容,剩下两条可能是相关人文历史领域的内容可能还未关注的账号发的收藏类内容。

最后,我把这俩 “极端收藏爱好者”的身份坚持了两周左右,每天重复十有几次到数十次不等的刷新,什么都有 只对收藏类内容进行点击阅读、评论、点赞、收藏和关注。

不过,最终头条给我的推荐比例却这么继续增加,前 10 条里,除了广告比例提高(可能是我实在老用户更能忍?),最多的以后还是5- 6 条收藏类相关内容,少的以后2- 4 条。其中,必有 2 条以上是收藏类强相关的内容(直接探讨收藏物两种生活),1- 2 两条收藏弱相关的文章(或我关注的收藏领域账号发布的其它领域内容),以及1- 2 条文化和历史强相关内容,而剩下还有4- 6 条则以后非收藏相关的内容。

看起来,推荐算法并非 会总出 10 条里 9 条以后收藏类内容的情况报告。经过这俩 十分极端(真实用户可能只在新闻资讯App里盯着收藏内容不放)但我我实在并非 麻烦的实验以后,我整体的感受有以下几点:

1、推荐算法在做的并以后以某第一根内容去压中你的兴趣,什么都有 以“组”为单位(10- 20 条)来测试你(身份标签)、你可能会喜欢的内容(兴趣标签)和你当下的情况报告(环境标签),命不命中是另好几次 概率游戏;可能要条条命中、甚至单条命中我我实在很困难,但以组为单位去看压中过(1- 2 条)的概率,很有可能在90%以上。

2、什么都有 纯以兴趣推荐为基础的产品,最难的是用户前三次使用的以后,可能流失率很高、印象很差,上边基于用户在内容消费上的需求和行为为基础,使用相当于率会这么顺。

3、资讯推荐类平台没可能最终只提供特定某一类内容给你看,可能这本质并非 有益于它一些人的日活和时长,当你的今日头条详细变成“收藏头条”后,也是另好几次 用户抛下的以后。

4、比如头条架构师曹欢欢曾提到:“聪明算法工程师以后希望一些人的用户兴趣窄化,就像这么另好几次 商场的经理,希望顾客每一次来到商场都只关注同一类别的商品。商场经理都希望顾客关注尽可能多的产品品类,算法工程师也希望用户尽可能的拓展一些人的兴趣。”

“另好几次 喜欢鞋子的用户,只要每次来商场都能快速买到一些人喜欢的鞋子,用户的单次消费就很开心,但最终用户会减少来这俩 商场的消费次数(包括每次来商场逛的“用户时长),除非他又产生了买鞋子的需求。要把用户长期留存下来,就要穿透他的兴趣,拓展他的视野,给你衣服、饮食、看电影那此消费,以后商场里完成。”

5、要注意的是,传统上我们我们无缘无故提到的“信息茧房”并以后两种生活理论(theory),什么都有 两种生活假设(hypothesis),至今仍未得到数据量化和案例的证明。学术上更常见的是概念是“信息回音室(echo chamber)”和“过滤气泡(filter bubble)”:我们我们在一些社交和新闻类产品里更容易听到回声和信息被过滤,但这以后累似 茧房的详细束缚,什么都有 代表“另好几次 人的信息获取不再多元”“意见被单一来源的信息左右”

6、相对算法推荐,过去报纸、杂志和门户网站更有可能造成“信息茧房”一些,可能我们我们的内容本质上是由一群天天泡在并肩相互影响的编辑们推荐给你的。而我们我们圈的信息可能是最容易造成“信息茧房”的,前提那个她 只通过我们我们来获得资讯和看法,但这俩 那此的难题本质上这也必须不是“社交偏食”而已,自古以来人总倾向于和一些人喜欢的人多打交道和聊天;

7、从认知心理学的角度来说,人类大众无缘无故难以解决的是“确认偏见”(confirmation bias),也即更你能不能相信一些人可能认同的内容。

可能你只和一些人聊得来的人交我们我们和聊天,且只看一些人认同的内容,坚持相当长一段时间后(封闭环境不被打破),这么他还真有可能无限接近信息茧房情况报告,只不过这俩 茧房是两种生活作茧自缚。

但这俩 以后,推荐算法反什么都有 能不能帮你进行茧房穿透的武器之一,并对抗可能年岁增长而原应分析的好奇心的衰减。

比如在我作为另好几次 “极致的收藏爱好者”的数据反馈之下,头条并未给我推的以后收藏类内容,还是保持了社会热点新闻的比例,什么都有 渐渐为我找到了文化和历史内容,并在后期持续测试我的兴趣边界,不断找到了可能和我作为另好几次 “收藏重度爱好者的用户画像”相匹配的内容(对收集有历史价值的物品、及其相关交易极度感兴趣、相当于率是男性、注重传统文化、年龄在估计在 40 岁以上),给我推荐了财经、科学、钓鱼和养生类相关的内容。

8、文初提到的方可成的学术研究里,还说到以后原应分析解释了我们我们为那此会对“信息茧房”信以为真,那是可能我们我们的“心口不一”:我们我们会向研究人员过度报告一些人常看的一些媒体(通常是和一些人的态度相近的媒体),而这么报告另一些一些人也我我实在看过的媒体(和一些人的意见相反的媒体)。比如你是另好几次 美国政治自由派,你平常可能既看自由派的媒体,也接触到了保守派的媒体,什么都有 在向研究人员报告一些人的媒体消费情况报告时,你只报告了自由派媒体,而隐藏了一些人消费的保守派媒体。

我们我们喜欢宣称和坚持一些人的人设,什么都有 有时没能正确回忆一些人的行为,造成了累似 “幸存者偏差“的效应。但整个世界我我实在无缘无故在滚滚向着多元化的一面发展,用户和内容在多元化,算法我我实在也在多元化。