美国有一个人,在1978年至1995年之间,每年一次,向多个地方邮寄炸弹,先后炸死3人,炸伤23人。最初看不出有什么规律,几年后FBI注意到,受害人都是在大学或者航空公司工作,因而取“大学”(University)和“航空”(Airline)的首字母,称神秘人为UNA炸弹客。
1995年,6家报刊机构同时收到自称是UNA炸弹客的人寄来的一个35000词的文章,题目是“工业社会及其未来”。该人提出,如果文章可以发表,就停止邮寄炸弹。
1995年8月,《华盛顿邮报》增刊发表了这一文章。三个月后,有一个人联系FBI说,从文章中的一处特别措辞来看,这个文章像是他十多年未见过的兄弟写的。他以前注意到这一措辞,印象深刻。FBI通过搜索,在蒙大拿州荒野中的一个小木屋里找到并逮捕了这个人的兄弟。
这个嫌疑人叫泰德·卡茨斯基(Ted Kaczynski),1942年生于芝加哥,极端环保分子。幼称神童,16岁考入哈佛大学,后获得数学博士学位。25岁被加州大学伯克莱分校聘为助理教授,两年后辞职,在蒙大拿州的荒野中的一个没有电没有自来水的小木屋里,过着野人一般的生活。
FBI在小木屋里发现了卡茨斯基所写的几篇文章,其中一篇是十年前在报纸就同一主题发表的大约300词的文章。FBI分析专家认为35000词的文章和300词的文章存在语言上存在重大相似性,有相同的常用实词、虚词以及固定短语共12个:at any rate(无论如何);clearly(显然);gotten(得到);in practice(实际上);moreover(再者);more or less(或多或少);on the other hand(另一方面); presumably(大概);propaganda(宣传);thereabouts(所在);以及由词根argu(“论-”)和propos(“指-”)所派生的一些词语。于是专家认定,这两篇文章的作者是同一个人。
被告律师也请了一个语言学专家,这个语言学专家反驳道,这些相同的词语不说明任何问题,因为任何人在任何时候都有可能使用任何词语,所以词汇的重叠不具有甄别意义。
FBI专家用互联网搜索进行了检验。当时互联网的规模比现在要小得多,但即便如此,他们也发现了有三百万个网页包含这十二个词语中的有一个或者多个。不过,当他们搜索包含所有这十二个词语的网页,却只得到69个;经过仔细考察,这69个网页都是《华盛顿邮报》那篇35000词文章的网络版!
这一事实充分说明个人词汇选择集合的独一无二性,证明了利用这一个人语言特点对文本的作者归属问题进行司法鉴定的可行性。
这方面的案例还有不少,不过我觉得仅此一例已能说明问题。
下面我以《三重门》和韩仁君作品作为文本样本,对其常用词汇集合进行初步的调查和分析。