数字取证技术帮助识别匿名邮件发件
出处:至顶网 作者:陈广成 时间:2011-7-19 11:48:56
有人看过电视剧《犯罪心理》么?我最感兴趣的是来自联邦调查局行为调查支援科的特工们是如何对几乎没有任何具体信息的不明身份嫌疑犯(联邦调查局官方说法叫未知项目)进行心理分析的。
我最喜欢的剧中人物就是负责包括笔迹学和书面文件取证分析在内的重要任务斯宾塞·里德博士。仅仅通过阅读信中的只言片语,他就可以描绘出作者的基本信息。
匿名邮件暴涨
尽管,这类人员依然很重要。但是,我们已经进入了数字时代。越来越多的书面信息已经电子化。这让执法人员的工作变得更加困难,尤其是针对不明身份嫌疑犯的时间(抱歉,我不能带来帮助)。
最近,我就见识了两位来自康考迪亚大学的共同研究者本杰明·冯教授(数据挖掘专家)和穆拉德·德巴比教授(网络法证专家)的出色工作。他们研究的项目是匿名数字邮件,尤其是电子邮件的去神秘化。
我询问冯教授他对匿名邮件的定义是什么:"一封电子邮件包含了两个部分,邮件头和邮件主体。'匿名邮件'就是没有头信息的电子邮件,并且,可以预料到在邮件结尾的地方也没有名字或者数字签名。"
他进一步补充说,"在过去的几年里,我们已经认识到涉及网络犯罪的匿名邮件呈现出爆炸性增长的态势。这些电子邮件可以被用来进行威胁,发送儿童色情制品,协助犯罪分子进行沟通或者传递病毒。"
深入了解电子邮件
对于电子邮件取证来说,一种新方法可以用来确认作者;在一份文件中,研究团队指出了电子邮件特别容易被误用的原因,内容如下所示:
l 对于欺诈类电子邮件来说,邮件头中包含发件人信息的元数据以及信息路径都可能是伪造的。
l 发件人可以通过匿名邮件服务器发送电子邮件,以隐瞒其实际发送地址。
l 电子邮件系统具备传输可执行文件、超链接、木马和脚本的能力。
l 可以通过网络咖啡屋和图书馆之类的公共场合连接互联网电子邮件服务,让匿名问题的处理进一步复杂化了。
好吧,现在我们知道了问题是什么以及它是如何出现的。现在就让我们用犯罪心理给出的分析模式,来看看为了将匿名信息清晰化需要进行何种处理。
电子指纹的出现
在现实世界中的法证领域,可以利用指纹来识别个人。而在匿名电子邮件的案件中,研究人员利用撰写者身份参数来建立被调查个体(不明身份嫌疑犯)的"字纹"档案。这里的书面内容包含了:
l 词汇丰富度
l 语句长度
l 功能词使用频率
l 段落布局情况
我没有意识到的情况出现了:作品风格学已经发展到可以利用软件进行分析的阶段了。签名就是一个典型的例子。
新方法的特征
冯教授和德巴比教授在撰写者身份参数方面的研究则更为深入。他们将语音识别和数据挖掘过程中使用的数字技术综合到一起。这样就可以让研究团队确认电子邮件的重复模式。
冯教授解释道:
举例来说,匿名邮件中包含了错别字,语法错误或者是大小写方面的问题。我们就利用这些特殊之处建立一个字纹。
利用这种模式,我们可以对特定电子邮件的撰写者进行高精度预测,可以推断其性别、国籍和教育程度等情况。
下面给出的图片,就是教授们提供的,展示出该模式是如何进行工作的(感谢爱思唯尔):
我们首先从S1号嫌疑人撰写的E1号电子邮件中独立提取活动模式参数。尽管现在的活动模式参数中包含了S1号嫌疑人的写作风格,但利用所有的活跃模式为其建立字纹也是不恰当的,原因在于,S2号嫌疑人和S3号嫌疑人也可能与S1号嫌疑人具有某些相同的写作模式。
因此,问题的关键就变成了筛选出共同的活动模式,并分离出可以用于从其它嫌疑人的写作风格中区分出来的独特模式。这些独特模式就构成了嫌疑人的字纹。
在这里,我想与广大读者一起分享从两位教授文章中发现的有趣内容:
活动模式挖掘已经在基因测序、消费者购买习惯分析、安全入侵研究和很多其它模式的识别应用中被证明属于成功的数据挖掘技术。但据我们所知,这是第一篇介绍利用活动模式概念确认撰写者身份参数内容的论文。
理论检验
为了对技术的准确性进行测试,研究人员选择了一个包含158名撰写者的20万封实际电子邮件的数据库作为样本。在针对10封不同主题的电子邮件进行测试后。研究人员发现准确程度可以达到80%到90%.
冯教授声称,"我们的技术是设计用来为法庭提供可靠证据支持的。为了保证证据被采纳,调查人员需要解释如何得出相关结论。而我们的模式就可以支持他们进行相应的处理。"
下面就是为什么该模式可以在法庭上使用的专业原因:
l 可以用于确认嫌疑人的字纹。
l 可以用于确认恶意电子邮件的作者。
l 能够提供证据支持确认撰写者的结论。
最后的思考
从一开始,研究团队关注的就是如何向法庭提供有效的证据表明犯罪分子就是匿名者。我想他们的努力方向是正确的。
在这里,要非常感谢由本杰明·冯、穆拉德·德巴比、法克哈恩得·伊克巴尔和拉奇德·哈吉迪组成的研究团队,帮助我理解了这么复杂的问题。