邮件服务器-邮件系统-邮件技术论坛(BBS)

标题: 反垃圾邮件技术解析 [打印本页]

作者: 二锅头 时间: 2007-9-17 13:27
标题: 反垃圾邮件技术解析
的值为 P1 ，P2 ，……PN ，P(A|t1 ,t2, t3……tn) 表示在邮件中同时出现多个TOKEN串t1,t2……tn时，该邮件为垃圾邮件的概率。
由复合概率公式可得:
P(A|t1 ,t2, t3……tn)=（P1*P2*……PN）/[P1*P2*……PN+（1-P1）*（1-P2）*……（1-PN）]
当 P(A|t1 ,t2, t3……tn) 超过预定阈值时，就可以判断邮件为垃圾邮件。
当新邮件到达的时候，就通过贝叶斯过滤器分析，通过使用各个特征来计算邮件是spam的概率。通过不断的分析，过滤器也不断地获得自更新。比如，通过各种特征判断一个包含单词AAA的邮件是spam，那么单词AAA成为垃圾邮件特征的概率就增加了。
这样，贝叶斯过滤器就有了自适应能力，既能自动进行，也可以用户手工操作，也就更能适应单个用户的使用。而垃圾邮件发送者要获得这样的适应能力就很难了，因此，更难逃避过滤器的过滤，但他们当然还是能够将邮件伪装成很普遍的正常邮件的样子。除非垃圾邮件发送者能去对某个人的过滤器进行判断，比如，采用发送回执的办法来了解哪些邮件被用户打开了等，这样他们就可以适应过滤器了。
虽然贝叶斯过滤器还存在有评分过滤器的缺陷，但是它更优化了。实践也证明，贝叶斯过滤器在客户端和服务器中效果是非常明显的，优秀的贝叶斯过滤器能够识别超过99.9%的垃圾邮件。大多数目前应用的反垃圾邮件产品都采用了这样的技术。比如Foxmail中的贝叶斯过滤。
2.1.6 局限性和缺点
现行的很多采用过滤器技术的反垃圾邮件产品通常都采用了多种过滤器技术，以便使产品更为有效。过滤器通过他们的误报和漏报来分等级。漏报就是指垃圾邮件绕过了过滤器的过滤。而误报则是将正常的邮件判断为了垃圾邮件。完美的过滤器系统应该是不存在漏报和误报的，但是这是理想情况。
一些基于过滤器原理的反垃圾邮件系统通常有下面的三种局限性：
·可能被绕过。垃圾邮件发送者和他们用的发送工具也不是静态的，他们也会很快适应过滤器。比如，针对关键字列表，他们可以随机更改一些单词的拼写，比如("强悍", "弓虽悍", "强-悍").Hash-buster（在每个邮件中产生不同的HASH）就是来绕过hash过滤器的。当前普遍使用的贝叶斯过滤器可以通过插入随机单词或句子来绕过。多数过滤器都最多只能在少数几周才最有效，为了保持反垃圾邮件系统的实用性，过滤器规则就必须不断更新，比如每天或者每周更新。
·误报问题。最头痛的问题就是将正常邮件判断为垃圾邮件。比如，一封包含单词sample的正常邮件可能因此被判断为垃圾邮件。某些正常服务器不幸包含在不负责任的组织发布的block list对某个网段进行屏蔽中，而不是因为发送了垃圾邮件（xfocus的服务器就是这样的一个例子）。但是，如果要减少误报问题，就可能造成严重的漏报问题了。
·过滤器复查。由于误报问题的存在，通常被标记为垃圾邮件的消息一般不会被立刻删除，而是被放置到垃圾邮件箱里面，以便日后检查。不幸的是，这也意味着用户仍然必须花费时间去察看垃圾邮件，即便仅仅只针对邮件标题。
目前更严重的问题是，人们依然认为过滤器能有效阻止垃圾邮件。实际上，垃圾邮件过滤器并不能有效阻止垃圾邮件，在多数案例中，垃圾邮件依然存在，依然穿过了网络，并且依然被传播。除非用户不介意存在被误报的邮件，不介意依然会浏览垃圾邮件。过滤器可以帮助我们来组织并分隔邮件为垃圾邮件和正常邮件，但是过滤器技术并不能阻止垃圾邮件，实际上只是在"处理"垃圾邮件。
尽管过滤器技术存在局限，但是，这是目前最为广泛使用的反垃圾邮件技术。
2.2、验证查询
SMTP在设计的时候并没有考虑到安全问题。在1973年，计算机安全还没有什么意义，那个时候能够有一个可执行的邮件协议已经很了不起了。比如，RFC524描述将SMTP作为独立协议的一些情况：
"虽然人们可以或者可能可以，以本文档为基础设计软件，但请恰如其分地进行批注。请提出建议和问题。我坚信协议中依然存在问题，我希望读者能够阅读RFC的时候能够将它们都指出来。"
尽管SMTP的命令组已经发展了很长时间，但是人们还是以RFC524为基础来执行SMTP的，而且还都假定问题（比如安全问题）都会在以后被解决。因此直到2004年，源自RFC524中的错误还是依然存在，这个时候SMTP已经变得非常广泛而很难简单被代替。垃圾邮件就是一个滥用SMTP协议的例子，多数垃圾邮件工具都可以伪造邮件头，伪造发送者，或者隐藏源头。
垃圾邮件一般都是使用的伪造的发送者地址，极少数的垃圾邮件才会用真实地址。垃圾邮件发送者伪造邮件有下面的几个原因：
*因为是违法的。在多个国家内，发送垃圾邮件都是违法行为，通过伪造发送地址，发送者就可能避免被起诉。
*因为不受欢迎。垃圾邮件发送者都明白垃圾邮件是不受欢迎的。通过伪造发送者地址，就可能减少这种反应。
*受到ISP的限制。多数ISP都有防止垃圾邮件的服务条款，通过伪造发送者地址，他们可以减少被ISP禁止网络访问的可能性。
因此，如果我们能够采用类似黑白名单一样，能够更智能地识别哪些是伪造的邮件，哪些是合法的邮件，那么就能从很大程度上解决垃圾邮件问题，验证查询技术正是基于这样的出发点而产生的。以下还会解析一些主要的反垃圾邮件技术，比如Yahoo!、微软、IBM等所倡导和主持的反垃圾邮件技术，把它们划分在反向验证查询技术中并不是很恰当，但是，从某种角度来说，这些技术都是更复杂的验证查询。
2.2.1、反向查询技术
从垃圾邮件的伪造角度来说，能够解决邮件的伪造问题，就可以避免大量垃圾邮件的产生。为了限制伪造发送者地址，一些系统要求验证发送者邮件地址，这些系统包括：
反向邮件交换（RMX）<http://www.ietf.org/internet-drafts/draft-danisch-dns-rr-smtp-03.txt>
发送者许可（SPF）<http://spf.pobox.com/>
标明邮件协议（DMP）<http://www.pan-am.ca/dmp/>
这些技术都比较相近。DNS是全球互联网服务来处理IP地址和域名之间的转化。在1986年，DNS扩展，并有了邮件交换纪录（MX），当发送邮件的时候，邮件服务器通过查询MX纪录来对应接收者的域名。
类似于MX纪录，反向查询解决方案就是定义反向的MX纪录（"RMX"--RMX，"SPF"--SPF，"DMP"--DMP），用来判断是否邮件的指定域名和IP地址是完全对应的。基本原因就是伪造邮件的地址是不会真实来自RMX地址，因此可以判断是否伪造。
2.2.2 DKIM技术
DKIM（DomainKeys Identified Mail）技术基于雅虎的DomainKeys验证技术和思科的Internet Identified Mail。
雅虎的DomainKeys利用公共密钥密码术验证电子邮件发件人。发送系统生成一个签名并把签名插入电子邮件标题，而接收系统利用DNS发布的一个公共密钥验证这个签名。思科的验证技术也利用密码术，但它把签名和电子邮件消息本身关联。发送服务器为电子邮件消息签名并把签名和用于生成签名的公共密钥插入一个新标题。而接收系统验证这个用于为电子邮件消息签名的公共密钥是授权给这个发件地址使用的。
DKIM将把这两个验证系统整合起来。它将以和DomainKeys相同的方式用DNS发布的公共密钥验证签名，它也将利用思科的标题签名技术确保一致性。
DKIM给邮件提供一种机制来同时验证每个域邮件发送者和消息的完整性。一旦域能被验证，就用来同邮件中的发送者地址作比较检测伪造。如果是伪造，那么可能是spam或者是欺骗邮件，就可以被丢弃。如果不是伪造的，并且域是已知的，可为其建立起良好的声誉，并绑定到反垃圾邮件策略系统中，也可以在服务提供商之间共享，甚至直接提供给用户。
对于知名公司来说，通常需要发送各种业务邮件给客户、银行等，这样，邮件的确认就显得很重要。可以保护避免受到phishing攻击。
现在，DKIM技术标准提交给IETF，可以参考draft文档http://www.ietf.org/internet-drafts/draft-delany-domainkeys-base-00.txt

作者: 二锅头 时间: 2007-9-17 13:30
标题: 反垃圾邮件技术解析（续）（转帖！）
DomainKeys的实现过程
发送服务器经过两步：
1、建立。域所有者需要产生一对公/私钥用于标记所有发出的邮件（允许多对密钥），公钥在DNS中公开，私钥在使用DomainKey的邮件服务器上。
2、签名。当每个用户发送邮件的时候，邮件系统自动使用存储的私钥来产生签名。签名作为邮件头的一部分，然后邮件被传递到接收服务器上。
接收服务器通过三步来验证签名邮件：
1、准备。接收服务器从邮件头提取出签名和发送域（From:）然后从DNS获得相应的公钥。
2、验证。接收服务器用从DNS获得的公钥来验证用私钥产生的签名。这保证邮件真实发送并且没有被修改过。
3、传递。接收服务器使用本地策略来作出最后结果，如果域被验证了，而且其他的反垃圾邮件测试也没有决定，那么邮件就被传递到用户的收件箱中，否则，邮件可以被抛弃、隔离等。
2.2.3、SenderID技术
2004年，Gates曾信誓旦旦地预言微软能够在未来消灭垃圾邮件，他所期望的就是Sender ID技术，但是，最近他则收回了他的预言。这也就是标准之争，微软希望IETF能够采用Sender ID技术作为标准，并且得到了大量支持，比如Cisco, Comcast, IBM, Cisco,Port25,Sendmail,Symantec,VeriSign等，也包括后来又倒戈的AOL的支持，但是在开源社区，微软一直没有得到足够的支持，IETF最终否决了微软的提议。
SenderID技术主要包括两个方面：发送邮件方的支持和接收邮件方的支持。其中发送邮件方的支持主要有三个部分：发信人需要修改邮件服务器的DNS，增加特定的SPF记录以表明其发信身份，比如"v=spf1 ip4:192.0.2.0/24 -all"，表示使用SPF1版本，对于192.0.2.0/24这个网段是有效的；在可选情况下，发信人的MTA支持在其外发邮件的发信通信协议中增加SUBMITTER等扩展，并在其邮件中增加Resent-Sender、Resent-From、Sender等信头。
接收邮件方的支持有：收信人的邮件服务器必须采用SenderID检查技术，对收到的邮件检查PRA或MAILFROM，查询发件者DNS的SPF纪录，并以此验证发件者身份。
因此，采用Sender ID技术，其整个过程为：
第一步，发件人撰写邮件并发送；
第二步，邮件转移到接收邮件服务器；
第三步，接收邮件服务器通过SenderID技术对发件人所声称的身份进行检查（该检查通过DNS的特定查询进行）；
第四步，如果发现发信人所声称的身份和其发信地址相匹配，那么接收该邮件，否则对该邮件采取特定操作，比如直接拒收该邮件,或者作为垃圾邮件。
Sender ID技术实际上并不是根除垃圾邮件的法宝，它只是一个解决垃圾邮件发送源的技术，从本质上来说，并不能鉴定一个邮件是否是垃圾邮件。比如，垃圾邮件发送者可以通过注册廉价的域名来发送垃圾邮件，从技术的角度来看，一切都是符合规范的；还有，垃圾邮件发送者还可以通过别人的邮件服务器的漏洞转发其垃圾邮件，这同样是SenderID技术所不能解决的。
2.2.4、FairUCE技术
FairUCE（Fair use of Unsolicited Commercial Email）由IBM开发，该技术使用网络领域的内置身份管理工具，通过分析电子邮件域名过滤并封锁垃圾邮件。
FairUCE把收到的邮件同其源头的IP地址相链接--在电子邮件地址、电子邮件域和发送邮件的计算机之间建立起一种联系，以确定电子邮件的合法性。比如采用SPF或者其他方法。如果，能够找到关系，那么检查接受方的黑白名单，以及域名名声，以此决定对该邮件的操作，比如接收、拒绝等。
FairUCE还有一个功能，就是通过溯源找到垃圾邮件的发送源头，并且将那些传递过来的垃圾邮件再转回给发送源头，以此来打击垃圾邮件发送者。这种做法利弊都有。好处就是能够影响垃圾邮件发送源头的性能，坏处就是可能打击倒正常的服务器（比如被利用的）的正常工作，同时该功能又复制了大量垃圾流量。
2.2.5、局限性和缺点
这些解决方案都具有一定的可用性，但是也存在一些缺点：
**非主机或空的域名
反向查询方法要求邮件来自已知的并且信任的邮件服务器，而且对应合理IP地址（反向MX纪录）。但是，多数的域名实际上并不同完全静态的IP地址对应。通常情况下，个人和小公司也希望拥有自己的域名，但是，这并不能提供足够的IP地址来满足要求。DNS注册主机，比如GoDaddy，向那些没有主机或只有空域名的人提供免费邮件转发服务。尽管这种邮件转发服务只能管理接收的邮件，而不能提供邮件发送服务。
反向查询解决方案对这些没有主机或者只有空域名的用户造成一些问题：
·没有反向MX记录。这些用户现在可以配置邮件客户端就可以用自己注册的域名能发送邮件。但是，要反向查询发送者域名的IP地址就根本找不到。特别是对于那些移动的、拨号的和其他会频繁改变自己IP地址的用户。
·不能发送邮件。要解决上面的问题，一个办法就是通过ISP的服务器来转发邮件，这样就可以提供一个反向MX纪录，但是，只要发送者的域名和ISP的域名不一样的时候，ISP现在是不会允许转发邮件的。
这两种情况下，这些用户都会被反向查询系统拦截掉。
**合法域名
能验证身份，并不一定就是合法的身份，比如：垃圾邮件发送者可以通过注册廉价的域名来发送垃圾邮件，从技术的角度来看，一切都是符合规范的；还有，目前很多垃圾邮件发送者可以通过别人的邮件服务器漏洞进入合法邮件系统来转发其垃圾邮件，这些问题对于验证查询来说还无法解决。
2.3、挑战
垃圾邮件发送者使用一些自动邮件发送软件每天可以产生数百万的邮件。挑战的技术通过延缓邮件处理过程，将可以阻碍大量邮件发送者。那些只发送少量邮件的正常用户不会受到明显的影响。但是，挑战的技术只在很少人使用的情况下获得了成功。如果在更普及的情况下，可能人们更关心的是是否会影响到邮件传递而不是会阻碍垃圾邮件。
这里介绍两种主要的挑战形式：挑战-响应，和计算性挑战（challenge-response and proposed computational challenges）
2.3.1 挑战-响应
挑战-响应（Challenge-Response：CR）系统保留着许可发送者的列表。一个新的邮件发送者发送的邮件将被临时保留下来而不立即被传递。然后向这个邮件发送者返回一封包含挑战的邮件（挑战可以是连接URL或者是要求回复）。当完成挑战后，新的发送者则被加入到许可发送者列表中。对于那些使用假邮件地址的垃圾邮件来说，它们不可能接收到挑战，而如果使用真实邮件地址的话，又不可能回复所有的挑战。但是，CR系统还是有许多局限性：
CR死锁。假如Alice告诉Bill要给朋友Charlie发送邮件。Bill发送一个邮件给Charlie，Charlie的CR系统临时中断邮件并发送给Bill一个挑战。但是Bill的CR系统又会中断Charlie这里发送出来的挑战邮件，并发送自己的挑战。因此，结果就是，用户都没有接收到挑战，而且用户也无法回复邮件。而且用户也无法知道，在挑战过程中发生了问题。因此，如果双方都使用CR系统的话，他们就可能根本无法进行沟通。
自动系统问题。邮件列表或者那些自动系统，比如一些网站的"发送给朋友……"功能，就不可能回应挑战。
解释挑战。许多CR系统都执行解释性挑战。这些复杂的CR系统包含了字符识别和参数匹配，但是即便如此，还是能够进行自动化操作。比如，Yahoo的CR系统在创建新邮件账号的时候，对于那些有简单智能字符分析的系统是存在漏洞的。Hushmail的邮件CR系统要求从蓝背景图片中找出指定的图形（分析背景，找出图形，提交坐标，这是可能的）
这些在市场宣传神化中强调了两点：1、人们必须得提供挑战，2、这些问题都非常复杂而不太可能自动化操作。但是实际上，多数的垃圾邮件发送者完全不理睬了这些CR系统，因为他们主要是担心没有大量的接收者，而不是担心挑战太复杂。许多垃圾邮件发送者也使用有效的邮件地址。当CR系统会干扰垃圾邮件的时候，那些发送者也会找出自动化搞定这些挑战的办法的。
2.3.2、计算性挑战
现在也提出了一些计算性挑战方案Computational Challenge (CC)，如，通过增加发送邮件的"费用"。多数CC系统使用复杂的算法来有意拖延时间。对于单个用户来说，这种拖延很难被察觉，但是对于发送大量邮件的垃圾邮件发送者来说，这就意味着要花费很多时间了。CC系统的实例，如Hash Cash (http://www.cypherspace.org/adam/hashcash/)。但是，即便如此，CC系统还是会影响快速通讯而不仅仅影响垃圾邮件。这些局限包括：
·不平等影响。计算性挑战是以CPU、内存和网络为基础的，比如，在1Ghz计算机上挑战可能花费10秒，但是在500Mhz上就需要花费20秒了。
·邮件列表。许多邮件列表都有数千，甚至数百万的接受者。比如BugTraq，就可能会被看作垃圾邮件了。CC系统来处理邮件列表是不现实的。如果垃圾邮件发送有办法通过合法的邮件列表来绕过挑战，那么他们也就有办法绕过其他的挑战了。
·机器人程序。Sobig或者其他象垃圾邮件一样的病毒，能让垃圾邮件发送者控制大量的机器。这就让他们能够用大量的系统来均衡"费用"了。
·合法的机器人程序。垃圾邮件发送者发送垃圾邮件是因为会给他们带来收入。如果这些人联合起来，就可能提供大量的系统来分担"费用"，这完全是合法的，而且不需要通过病毒了。
当前，计算性挑战还没有广泛应用，因为这种技术还不能解决spam问题，反而可能干扰正常用户。
2.4、密码术
现在提出了一些采用密码技术来验证邮件发送者的方案。从本质上来说，这些系统采用证书方式来提供证明。没有适当的证书，伪造的邮件就很容易被识别出来，下面就是一些研究中的密码解决办法：
AMTP. http://www.ietf.org/internet-drafts/draft-weinman-amtp-02.txt
MTP. http://www.ietf.org/internet-drafts/draft-danisch-email-mtp-00.txt
S/MIME and PGP/MIME. http://www.imc.org/smime-pgpmime.html
目前的邮件协议（SMTP）不能直接支持加密验证。研究中的解决方案扩展了SMTP（比如S/MIME，PGP/MIME和AMTP），还有一些其他的则打算代替现在的邮件体系，比如MTP。有趣的是，MTP的作者说到："SMTP已经有20多年历史了，然而近代的一些需求则在过去5到10年内发展起来。许多扩展都是针对SMTP的语句和语义，纯粹的SMTP不能满足这些需求，如果不改变SMTP的语句，是很难有所突破的。"但是，很多的扩展的SMTP实例恰恰表明了SMTP的可变性，而不是不变性，完全创造一个新的邮件传输协议并不是必须的。
在采用证书的时候，比如X.509或TLS，某些证书管理机构必须得可用，但是，如果证书存储在DNS，那么私钥必须得在验证的时候可用。（换句话说，如果垃圾邮件发送者可以访问这些私钥，那么他们就可以产生有效的公钥）。另一方面，也要用到主要的证书管理机构（CA），但是，邮件是一种分布式系统，没有人希望所有的邮件都由单独的CA来控制。一些解决办法因此允许多个CA系统，比如，X.509就会确定可用的CA服务器。这种扩展性也导致垃圾邮件发送者也可以运行着私有的CA服务器。
如果没有证书管理机构，就需要其他的途径在发送者和接收者之间来分发密钥。比如，PGP，就可以预先共享公钥。在未连接网络或者比较封闭的群组中，这种办法是可行的，但是在大量个体使用的时候，就不是太适合，特别是对于需要建立新的联系的情况下。从本质上来说，预先共享密钥有些类似白名单的过滤器：只有彼此知道的人才能发送邮件。
不幸的是，这些加密解决方案还不能阻止垃圾邮件，比如，假设其中的一种加密方案广泛被接受了。这些办法都不能确认邮件地址是真实的，而只是可以确认发送者有邮件的正确密钥。缺点就是：
·滥用自动化工具。如果在广大范围内被应用，就需要有一种办法为所有用户产生证书或者密钥（包括邮件服务器端，邮件客户端，依赖与相应的解决办法）系统很可能通过一种自动化的方法来提供密钥。可是，可以相信垃圾邮件发送者也会滥用任何自动化系统，并且用来发送经认证的垃圾邮件。
·可用性问题。这也有一些可用性的争论。比如，如果CA服务器不可用怎么办？邮件被挂起？退票？还是依然可用？垃圾邮件发送者近来对一半以上的提供黑名单网站进行了拒绝服务攻击，并导致这些网站都无法访问。显然，这些垃圾邮件发送者想阻止别人更新黑名单。对于单一的CA服务器，很显然也无法避免这样的命运。
3、总结
上面介绍了一些反垃圾邮件的技术，其实，现在很多反垃圾邮件方案所采用的都不会只是一种技术，而是多种多类技术的综合体。
垃圾邮件的危害现在已经深入人心，反垃圾邮件也取得越来越多的成绩，比如，Scott Richter向微软赔款700万。不少国家也在为反垃圾邮件进行立法，以便能够得到法律上的支持。
但从技术上来说，这跟反攻击一样，是一个正反双方的博弈过程，一种新的反垃圾邮件技术必然会出现一种对应得垃圾邮件技术，况且，任何一种技术，还没有办法去解决所有问题，技术的发展也将延续下去。

欢迎光临邮件服务器-邮件系统-邮件技术论坛(BBS) (http://5dmail.cn/bbs/)