那么,当有人想要采集你的语言指纹时,你又该如何脱身呢?阿伽蒙表示,从某种意义上说,这很容易做到。假设有100位作者,每人提交了一段文字,你身为其中的一员,不想让别人知道哪一段是你写的,那么“你要做的,只是让自己的文字看起来像那99位中的一位。”
这种做法有时候效果很好。萨迪亚·阿弗隆兹(Sadia Afronz)现在供职于加州大学伯克利分校的国际计算科学研究所,她在宾州的德雷塞尔大学工作期间曾和同事开展过一项研究,她们要求参与者写下自己当天早晨的经历,并模仿美国作家科马克·麦卡锡(Cormac McCarthy)的文笔。结果这些文字骗过了一款已经学习过麦卡锡作品的计量文体分析程序:它认为这些都是麦卡锡的原作。
可惜的是,一般人在这一点上总显得业余,很少有人能用恰当的修改伪装自己。比如在“devil strip”的案子里,那个勒索者故意拼错了一些单词(把“cop”拼成“kop”,“can”拼成“kan”),想以此伪装成一个文化程度不高的人。但这个文字计谋并未得逞,因为他反倒把一些难词拼对了,这个矛盾戳穿了他的伪装。
阿伽蒙指出:“当一个人想要掩盖自己的文风、模仿别人的笔触时,他却往往会在无意中流露出更多表明身份的特征。”蒂姆·格兰特回想了2003年和同事杰克·格里夫参与调查吉米·斯塔巴克(Jamie Starbuck)一案的经历。斯塔巴克在近三年的时间里周游世界,其间用妻子黛比的邮箱给别人发送电邮,而实际上他已经在31个月前、也就是两人结婚仅一周后杀死了黛比。直到黛比的亲戚产生怀疑,他才开始模仿她的文体。“黛比很喜欢用分号,而且用的方式很古怪。”格兰特说,“而吉米突然开始大量使用分号,但用的方式又和妻子不同。”他终于在返回英国后被捕,判处终身监禁。
那么,我们可不可以用计算机本身来修改文本、骗过计量文体分析程序呢?可以,你只要上传自己的文字,然后按照程序的指示修改就行了。这现在已经是一个蓬勃发展的领域,称为“反向计量文体学”(adversarial stylometry),阿弗隆兹就是推动这个领域的研究者之一。她说,因为这项目工作,老是有人要求她揭开中本聪的真实面目,最后她在自己的网站上贴出了一则公告,表明拒绝。“我研究计量文体学的目的,一是向人们指出它的危害,二是考察机器学习的弱点,三是开发工具改善匿名性。”她这样写道。
在网上保持匿名身份并不容易。图片来源:anonews.co
保护匿名性可以是符合正当职业利益的,比如学界人士就希望能对基金和论文的同行评议保持匿名。而对那些检举者甚至程序员,匿名性可能同样死攸关。
你或许认为计算机源代码是纯粹功能性的,但其实它们同样会泄露编码的人或者团体的许多信息。就像写作者有“笔纹”一样,编码者也有独特的“码纹”(code print),因为同样一段程序,编写的方式却有很多。
“根据程序员的舒适水平及编程技术的不同,他们也会选择不同的编程方式。”加州大学伯克利分校国际计算科学中心的萨迪亚·阿弗隆兹说道。
码纹中可能包含一些看似琐碎的选择,比如用空格键而不是制表键(tab)来缩进代码,这些选择都会留下独特的数字痕迹。即便是对计算机下达的底层指令,也会因为编写者的不同而呈现差异。
2015年,谷歌举办了一年一度的编程大赛(Google Code Jam),来自宾州德雷塞尔大学的一组计算机科学家也用软件分析了1600名参赛者的编程风格。软件考察了代码中的关键字和句法等特征,最后成功把近93%的代码和它们的作者匹配了起来。
通过分析程序员在一段时间内的作品,这支团队还发现了程序员们的编程风格会在几年之内维持不变。码纹的这种稳定性有时很有参考价值,因为可能某个程序员的已知代码样本都是几年前获得的。
可是,程序员又为什么要保持匿名呢?我们或许立刻会想到那些恶意软件的作者逃避法律制裁的例子,但实际上也有正派的程序员想要隐藏身份,而且理由完全正当。比如有的地区认定开源软件非法,那么这些软件的开发者就可能不想公开身份。
因此,有人呼吁开发对文本做匿名化处理的软件,也就顺理成章了。
问题是,这类软件真的有效吗?
到今天为止,唯一向公众发布的匿名工具只有“Anonymouth”,它由德雷塞尔大学的隐私、安全和自动化实验室开发。这款工具于2012年发行,旨在将计量文体分析的准确性下降到随机猜测的水平。为达到这个目的,Annonymouth使用了一款称为“JStylo”的风格分析软件,它能通过采集几篇文章样本,评估其中的句子长度、词语选择和某些字母的使用频率等特征,绘出一个作者的肖像。接着再由Annoymouth指导作者修改文字,告诉他怎样才能让作品不符合自己的肖像,比如把时态由过去时换成现在时,或者少用某个人称代词等等。
开发者宣称,JStylo只要采集6500字的样本,就能将一段文字和它已经研究过的一众作者做对比甄别,结果能达到80%至85%的准确率。今年早些时候,另有开发者宣布了一个名叫“艾玛身份”(Emma Identity)的人工智能项目,号称只凭8000字就能为一名作者建立肖像,在和匿名文本对比时的准确率达到85%。
这样的成功率还远谈不上十全十美,但它们已经比随机猜测高得多了。能有这么高的成功率,是因为分析都是在类似实验室的环境中进行的,软件要寻找怎样的计量文体特征,都有明确的指导。然而现实世界就不同了,用来训练JStylo或艾玛的样本可能只是一篇短文、或是匆匆打出的一封邮件,而需要甄别的匿名文本却可能是一封认真撰写的信件或是一篇科学论文。
在将来,我们或许还会见到“反向作者分析”(adversarial authorship)技术,一边是识别作者的技术,一边是为作者掩饰的技术,两边开展不断加速的军备竞赛。北卡罗来纳州立农业技术大学正在开发一款名叫“作者网络”(AuthorWeb)的工具,能用来帮助作者规避计量文体分析。它会给写作者设立风格目标,以一块视觉仪表盘提供实时反馈,告诉他们写下的文字和某些特征的匹配程度。这应该能帮助写作者在较长的时间内轻松而统一地隐藏自己的文风。
与此同时,阿伽蒙指出,躲避计量文体分析的最佳手段依然是联合写作:一个人写下文本,再由另一个人编辑。你不必依靠机器帮忙或自己动手来修改文风,只要找人合作,那么两个或更多个作者的语言指纹就自然会相互抵销。这或许也是令中本聪藏身如此之久的策略:已经有人猜想藏在比特币背后不是一个人,而是一个群体。因为语言指纹互相覆盖,他们或许还能安全地潜伏在暗处,继续窥视那些追踪者。
编译来源:Write yourself invisible.