圈小蛙

根据马斯克的承诺,推特公开了部分源代码,包括推荐算法

正如推特Twitter)首席执行官埃隆马斯克(Elon Musk)一再承诺的那样,Twitter已经开放了部分源代码供公众检查,包括它用于在用户时间线中推荐推文的算法。

在GitHub上,Twitter发布了两个存储库(https://github.com/twitter/the-algorithm-mlhttps://github.com/twitter/the-algorithm),采用 GNU Affero General Public License v3.0 许可证,其中包含使社交网络运行的许多部分的代码,包括Twitter用来控制用户在“For You”时间轴上看到的推文的机制。在一篇博文中,Twitter将此举描述为“提高透明度的第一步”,同时“[预防]”给Twitter本身和平台上的人带来风险。

在今天的Twitter Spaces会议上,马斯克澄清道:

“我们最初发布的所谓算法会非常尴尬,人们会发现很多错误,但我们会很快修复它们,”马斯克说,“即使你不同意某些东西,至少你会知道它为什么在那里,并且你没有被秘密操纵……在这里,我们渴望的类比是Linux作为一个开源操作系统的伟大例子……理论上,人们可以发现Linux的许多漏洞。实际上,社区会识别并修复这些漏洞。”

关于博客文章中的防范风险的第二点,开源版本不包括为Twitter的广告推荐提供支持的代码或用于训练Twitter的推荐算法的数据。此外,它们几乎没有包含有关如何检查或实际使用代码的说明——这加强了这些版本严格以开发者为中心的想法。

推特写道:“[我们排除]了任何会损害用户安全和隐私或保护我们的平台免受不良行为者入侵的能力的代码,包括破坏我们打击儿童性剥削和性操纵的努力。”在Twitter解雇了大部分负责内容审核和其他用户安全相关工作的道德AI和信任与安全工作人员后仅数周,就出现了一些混合信息,这些员工负责内容审核以及其他与用户安全相关的任务。但该公司仍然坚称,通过今天的代码发布,它“[采取]了确保用户安全和隐私得到保护的措施”。

Twitter表示,它正在开发工具来管理来自社区的代码建议,并将更改同步到其内部存储库。据推测,这些工具将在未来某个日期提供——目前还没有迹象表明它们的存在。

“我们将寻求建议,不仅是关于错误,还包括关于算法应该如何工作的建议,”马斯克在Spaces会议上说,“这将是一个不断发展的过程。我不认为这是一个不间断的上升趋势……但我们对改善用户体验的方法持开放态度。”

乍一看,该算法相当复杂——但从技术角度来看,并不一定令人惊讶。它由多个模型组成,包括一个用于检测“工作不安全”或滥用内容的模型,确定一个Twitter用户与另一个用户互动的可能性,并计算一个Twitter用户的“声誉”。(目前还不清楚“声誉”到底指的是什么;高级文档对此并不清楚。)几个神经网络负责对推文进行排名,并推荐要关注的帐户,而过滤组件会隐藏推文,以——“支持法律合规,提高产品质量,增加用户信任,通过使用硬过滤、可见产品处理和粗粒度降级来保护收入。”

在一篇工程博客文章中,Twitter揭示了更多关于推荐管道的信息,它声称该管道每天运行大约50亿次:

“我们试图从数亿推文中提取最好的1500条推文……今天,“For You”时间轴平均由50%[你不关注的人的推文]和50%[你关注的人的推文]组成,尽管这可能因用户而异,”推特写道。“[推文]的排名是通过一个约4800万个参数的神经网络实现的,该网络在推文互动方面不断训练,以优化积极的参与(例如喜欢、转发和回复)。”

当然,Twitter用户看不到完整的1500条推文。它们根据内容限制和模型考虑的其他标准和因素进行过滤,例如推文是否有“负面反馈”,以及它们是否主要来自同一Twitter用户,或者来自被屏蔽或静音的用户。

Gizmodo指出,一件似乎没有公开的事情是Twitter向用户推送的VIP名单。本周,Platformer报道称,Twitter有一份值得关注的用户轮换名单,其中包括YouTuber Mr.Beast和DailyWire创始人BenShapiro,它用来监测推荐算法的变化,增加这些“高级用户”的可见度,似乎是随意的。

有更多证据表明,该算法可能会根据来源不同而对推文进行不同处理,相关算法代码特别提到了 author_is_elon、author_is_power_user、author_is_democrat、author_is_republican…研究人员Jane Manchun Wong指出,Twitter的算法专门标记了推文作者是否是Elon Musk,还有其他标签表明作者是否是“高级用户”,以及他们是共和党人还是民主党人。

在今天下午的Spaces会议上,一位Twitter工程师表示,这些标签仅用于衡量指标。但是马斯克——他说他在今天之前不知道这些标签——说它们不应该在那里出现。

“绝对不应该将人们分为共和党人和民主党人,这没有任何意义。”马斯克说。

源代码的发布是在最近几个月涉及调整Twitter推荐算法的几起争议之后发布的。根据Platformer的说法,2月份,马斯克曾呼吁Twitter的工程师重新配置算法,以便他的推文得到更广泛的浏览。(Twitter后来撤回了这一变化——至少在一定程度上。)11月,Twitter开始向用户展示更多他们不关注的人的推文——该平台在马斯克被收购之前曾尝试过这一举措,但后来因用户的强烈反对而撤销。

Exit mobile version