的值为 P1 ,P2 ,……PN ,P(A|t1 ,t2, t3……tn) 表示在邮件中同时出现多个TOKEN串t1,t2……tn时,该邮件为垃圾邮件的概率。
由复合概率公式可得:
P(A|t1 ,t2, t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)]
当 P(A|t1 ,t2, t3……tn) 超过预定阈值时,就可以判断邮件为垃圾邮件。
当新邮件到达的时候,就通过贝叶斯过滤器分析,通过使用各个特征来计算邮件是spam的概率。通过不断的分析,过滤器也不断地获得自更新。比如,通过各种特征判断一个包含单词AAA的邮件是spam,那么单词AAA成为垃圾邮件特征的概率就增加了。
这样,贝叶斯过滤器就有了自适应能力,既能自动进行,也可以用户手工操作,也就更能适应单个用户的使用。而垃圾邮件发送者要获得这样的适应能力就很难了,因此,更难逃避过滤器的过滤,但他们当然还是能够将邮件伪装成很普遍的正常邮件的样子。除非垃圾邮件发送者能去对某个人的过滤器进行判断,比如,采用发送回执的办法来了解哪些邮件被用户打开了等,这样他们就可以适应过滤器了。
虽然贝叶斯过滤器还存在有评分过滤器的缺陷,但是它更优化了。实践也证明,贝叶斯过滤器在客户端和服务器中效果是非常明显的,优秀的贝叶斯过滤器能够识别超过99.9%的垃圾邮件。大多数目前应用的反垃圾邮件产品都采用了这样的技术。比如Foxmail中的贝叶斯过滤。
2.1.6 局限性和缺点
现行的很多采用过滤器技术的反垃圾邮件产品通常都采用了多种过滤器技术,以便使产品更为有效。过滤器通过他们的误报和漏报来分等级。漏报就是指垃圾邮件绕过了过滤器的过滤。而误报则是将正常的邮件判断为了垃圾邮件。完美的过滤器系统应该是不存在漏报和误报的,但是这是理想情况。
一些基于过滤器原理的反垃圾邮件系统通常有下面的三种局限性:
·可能被绕过。垃圾邮件发送者和他们用的发送工具也不是静态的,他们也会很快适应过滤器。比如,针对关键字列表,他们可以随机更改一些单词的拼写,比如("强悍", "弓虽悍", "强-悍").Hash-buster(在每个邮件中产生不同的HASH)就是来绕过hash过滤器的。当前普遍使用的贝叶斯过滤器可以通过插入随机单词或句子来绕过。多数过滤器都最多只能在少数几周才最有效,为了保持反垃圾邮件系统的实用性,过滤器规则就必须不断更新,比如每天或者每周更新。
·误报问题。最头痛的问题就是将正常邮件判断为垃圾邮件。比如,一封包含单词sample的正常邮件可能因此被判断为垃圾邮件。某些正常服务器不幸包含在不负责任的组织发布的block list对某个网段进行屏蔽中,而不是因为发送了垃圾邮件(xfocus的服务器就是这样的一个例子)。但是,如果要减少误报问题,就可能造成严重的漏报问题了。
·过滤器复查。由于误报问题的存在,通常被标记为垃圾邮件的消息一般不会被立刻删除,而是被放置到垃圾邮件箱里面,以便日后检查。不幸的是,这也意味着用户仍然必须花费时间去察看垃圾邮件,即便仅仅只针对邮件标题。
目前更严重的问题是,人们依然认为过滤器能有效阻止垃圾邮件。实际上,垃圾邮件过滤器并不能有效阻止垃圾邮件,在多数案例中,垃圾邮件依然存在,依然穿过了网络,并且依然被传播。除非用户不介意存在被误报的邮件,不介意依然会浏览垃圾邮件。过滤器可以帮助我们来组织并分隔邮件为垃圾邮件和正常邮件,但是过滤器技术并不能阻止垃圾邮件,实际上只是在"处理"垃圾邮件。
尽管过滤器技术存在局限,但是,这是目前最为广泛使用的反垃圾邮件技术。
2.2、验证查询
SMTP在设计的时候并没有考虑到安全问题。在1973年,计算机安全还没有什么意义,那个时候能够有一个可执行的邮件协议已经很了不起了。比如,RFC524描述将SMTP作为独立协议的一些情况:
"虽然人们可以或者可能可以,以本文档为基础设计软件,但请恰如其分地进行批注。请提出建议和问题。我坚信协议中依然存在问题,我希望读者能够阅读RFC的时候能够将它们都指出来。"
尽管SMTP的命令组已经发展了很长时间,但是人们还是以RFC524为基础来执行SMTP的,而且还都假定问题(比如安全问题)都会在以后被解决。因此直到2004年,源自RFC524中的错误还是依然存在,这个时候SMTP已经变得非常广泛而很难简单被代替。垃圾邮件就是一个滥用SMTP协议的例子,多数垃圾邮件工具都可以伪造邮件头,伪造发送者,或者隐藏源头。
垃圾邮件一般都是使用的伪造的发送者地址,极少数的垃圾邮件才会用真实地址。垃圾邮件发送者伪造邮件有下面的几个原因:
*因为是违法的。在多个国家内,发送垃圾邮件都是违法行为,通过伪造发送地址,发送者就可能避免被起诉。
*因为不受欢迎。垃圾邮件发送者都明白垃圾邮件是不受欢迎的。通过伪造发送者地址,就可能减少这种反应。
*受到ISP的限制。多数ISP都有防止垃圾邮件的服务条款,通过伪造发送者地址,他们可以减少被ISP禁止网络访问的可能性。
因此,如果我们能够采用类似黑白名单一样,能够更智能地识别哪些是伪造的邮件,哪些是合法的邮件,那么就能从很大程度上解决垃圾邮件问题,验证查询技术正是基于这样的出发点而产生的。以下还会解析一些主要的反垃圾邮件技术,比如Yahoo!、微软、IBM等所倡导和主持的反垃圾邮件技术,把它们划分在反向验证查询技术中并不是很恰当,但是,从某种角度来说,这些技术都是更复杂的验证查询。
2.2.1、反向查询技术
从垃圾邮件的伪造角度来说,能够解决邮件的伪造问题,就可以避免大量垃圾邮件的产生。为了限制伪造发送者地址,一些系统要求验证发送者邮件地址,这些系统包括:
反向邮件交换(RMX)<http://www.ietf.org/internet-drafts/draft-danisch-dns-rr-smtp-03.txt>
发送者许可(SPF)<http://spf.pobox.com/>
标明邮件协议(DMP)<http://www.pan-am.ca/dmp/>
这些技术都比较相近。DNS是全球互联网服务来处理IP地址和域名之间的转化。在1986年,DNS扩展,并有了邮件交换纪录(MX),当发送邮件的时候,邮件服务器通过查询MX纪录来对应接收者的域名。
类似于MX纪录,反向查询解决方案就是定义反向的MX纪录("RMX"--RMX,"SPF"--SPF,"DMP"--DMP),用来判断是否邮件的指定域名和IP地址是完全对应的。基本原因就是伪造邮件的地址是不会真实来自RMX地址,因此可以判断是否伪造。
2.2.2 DKIM技术
DKIM(DomainKeys Identified Mail)技术基于雅虎的DomainKeys验证技术和思科的Internet Identified Mail。
雅虎的DomainKeys利用公共密钥密码术验证电子邮件发件人。发送系统生成一个签名并把签名插入电子邮件标题,而接收系统利用DNS发布的一个公共密钥验证这个签名。 思科的验证技术也利用密码术,但它把签名和电子邮件消息本身关联。发送服务器为电子邮件消息签名并把签名和用于生成签名的公共密钥插入一个新标题。而接收系统验证这个用于为电子邮件消息签名的公共密钥是授权给这个发件地址使用的。
DKIM将把这两个验证系统整合起来。它将以和DomainKeys相同的方式用DNS发布的公共密钥验证签名,它也将利用思科的标题签名技术确保一致性。
DKIM给邮件提供一种机制来同时验证每个域邮件发送者和消息的完整性。一旦域能被验证,就用来同邮件中的发送者地址作比较检测伪造。如果是伪造,那么可能是spam或者是欺骗邮件,就可以被丢弃。如果不是伪造的,并且域是已知的,可为其建立起良好的声誉,并绑定到反垃圾邮件策略系统中,也可以在服务提供商之间共享,甚至直接提供给用户。
对于知名公司来说,通常需要发送各种业务邮件给客户、银行等,这样,邮件的确认就显得很重要。可以保护避免受到phishing攻击。
现在,DKIM技术标准提交给IETF,可以参考draft文档http://www.ietf.org/internet-drafts/draft-delany-domainkeys-base-00.txt |