导读:人之于信息,很多时候不仅是兴趣选择,还有社交选择。长期浸淫在某一圈层的人,不仅失去了接受其他圈层信息的机会,也失去了接受其他圈层信息的能力。更可怕的是通过互关好友摸清用户喜好这种技术,终于让我们失去了个人隐私的最后领地。
在智能推荐无处不在的今天,相信我们每个人都或多或少患上了隐私焦虑症。平时和朋友说话聊天都疑神疑鬼觉得手机在偷听,很多人也因此越来越不喜欢在社交媒体上发布信息了。
不说、不转、不点赞,看起来似乎是非常合理的“隐私三连”——如果我不留下任何数据痕迹,机器学习自然也没办法对我的喜好进行分析了。
可事实真的如此吗?
精准预测你的社交媒体行为,只需要9位互关好友
最近在《自然》杂志中,来自佛蒙特大学的数据科学家们公布了这样一项研究,在推特上无需查看个人用户数据,而是通过对个人用户互相关注好友的推文数据分析,就能实现对个人用户社交媒体行为的精准预测。
换句话说,就算你删号退网,机器学习仍然可以通过你的好友列表来分析出你的用户画像。
在研究中,研究人员收集了一万三千余个推特账号,这些用户分别都拥有150-200个好友。在好友中找到互动率最高的前9位并进行分组,将用户好友组中好友的行为数据以时间为线索进行分析。
数据科学家们通过研究得出,一般社交媒体用户,只要不是专注某一领域的KOL,通常在社交媒体上使用的词汇不超过5000个。如果用中文来比喻,大概就是“哈哈哈哈”“不转不是中国人”“我家哥哥太帅了吧”这些常规词汇。
而通过对用户好友的常用词分析,基本可以圈定该用户的兴趣范围。研究者提到,很多专注于某一领域的用户(比如政治),其实在社交媒体用词量上只有几百个单词。在兴趣范围内的词汇量中引入代表个人行为变化的熵率,再与建立在时间序列上的文本生成算法相结合,就能够实现通过社交关系来预测个人社交媒体行为。
而当好友组中的好友数量越多时,这种预测也越准确。但值得注意的是,一旦好友数量超过150人,预测的准确率反而会下降——因为好友数量过多时往往双方的关联度降低,脱离了一个本来的兴趣圈子,在行为上也很难形成映射关系。
也就是说,如果你微博好友都是战狼团,那么你也会和大家一起“虽远必诛”,如果你的微博是追星阵地,那么你也会深夜和姐妹们一起为idol打榜。一个人的网友圈子,决定了他的认知范围,也进而使得其行为可以被预测。
看来,人类的本质是复读机无误了。
圈层竖立起高墙,隐私在内部塌陷
这一研究虽然展示了自然语言处理能力的进步,却也证实了两个我们担忧已久的问题。
首先,通过推特好友的言行对于用户的言行进行精准推测,无疑是为信息茧房理论投了一张成立票。
自从桑斯坦的信息茧房假设被传播开以来,关于这一假设的认可程度其实长期处于不稳定的状态之下。尤其是近些年来社交媒体和个性化信息流的火热,更让很多人常常把信息茧房四字挂在嘴边。支持者认为算法推荐会源源不断的把符合用户兴趣的信息推荐给用户,最终导致用户认知闭塞,缺乏对世界的完整化理解。
其反对者认为,人天生就会对所接受的信息表现出兴趣趋向,即使是报纸和书本时代,人们也会选择自己感兴趣的内容来阅读。而这种选择并不会形成所谓“信息传播阻碍”“对外部世界的认知疏离”,所谓的茧房假说也不能成立了。
可佛蒙特大学在这次研究中提出了观点——人之于信息,很多时候不仅是兴趣选择,还存有社交选择。社交媒体上朋友的兴趣、语言风格、活跃时间与个人用户社交媒体行为存在的强关联,意味着一个人信息茧房是通过社交圈层搭建起来的,而这种茧房已经直接作用在用户的表达能力上,例如在研究中出现的一个有趣现象,越是对政治话题感兴趣的用户,在社交媒体上发言的词汇量越匮乏。某种程度上,这证明了信息茧房下的传播圈层障碍越来越明显,长期浸淫在某一圈层的人,不仅仅失去了接受其他圈层信息的机会,也失去了接受其他圈层信息的能力。
更可怕的是,通过互关好友摸清用户喜好这种技术,终于让我们失去了个人隐私的最后一片领地。
奥地利法学家舍恩伯格曾经出版过一本名为《删除:忘记是在数字时代的美德》的书,讲述的是个人信息在互联网上的被遗忘权,那些关于个人用户的信息,个人用户应有权要求网站和平台从服务器端彻底删除或者限制访问。
一开始人们对被遗忘权的要求还只停留在强制拍卖、失信名单这一类个人负面信息上,但很快相关需求开始变得越来越广泛。例如2013年左右曾经很流行一种工具,可以根据用户主页链接找到那些曾经被用户删除微博、豆瓣等信息,当时被很多人用来进行人肉搜索,以至于再次激起了人们对于被遗忘权的强烈需求。
到今天被遗忘权已经被写进欧盟的GDPR,注销账号、删除一切已经成了我们捍卫网络隐私的最后一条防线。可“好友算法”的出现意味着,只要对方能找到你的好友关系,即使你删去了一切内容,依然可以会将自己赤裸的展示在算法面前。
这也让Facebook这样靠探知用户信息盈利的企业可以在伦理上钻空子——假如一位用户坚持不给社交媒体授权数据权限,但他的社交媒体好友都向社交媒体开放了权限,社交媒体平台很可能会“合理合法地”绕过用户本身获取用户信息。
自我的副本
世界上第一个发现天然放射性现象的物理学家,来自法国贝克勒尔在被放射性物质夺走生命时,恐怕也从为想到过这项让自己奉献了一生的技术,未来会演变成夺走了无数人生命的核弹。
世事总是如此,那个无意中打开潘多拉魔盒的人,往往看不到被魔盒改变过的世界的模样。
这种社交媒体预测算法也是一样,在同样的逻辑下我们几乎可以想象到:是否通过对一个主妇购物数据的分析,也能获知她丈夫刮胡子的频率?是否在职场社交软件上简单分析,就能获知一个人的工作能力和薪资水平?
在数字化生存和AI的共同作用下,“自我”的所有权已经形成副本并被无限分割,散落在那些一切与我们产生关联的地方——我们的朋友的喜好、我们家人的行为、我们爱人的一举一动……以至于从这些关联之中,也能挖掘出得碎片,还原出我们的自我。
面对这种可能,我们很难现在就为其下一个“好或坏”的定论。但这一次,让法律法规走在技术前面,或许是个不错的选择。