也谈垃圾邮件
一家之见<br>有人对可称为垃圾邮件的邮件进行过调查,其中近80%的邮件100%的人会认为是垃圾邮件,而其中近20%的邮件则因人而异.这也是为什么目前诸多反垃圾邮件产品不近人意的原因.<br>
<br>
目前市场上反垃圾邮件产品所采用的技术不外如下:<br>
<br>
A. 内容过滤<br>
<br>1. 发件人/域过滤;<br>2. 主题行过滤;<br>3. 关键字过滤.<br>
<br>
(注:由于垃圾邮件的快速变化,发件人/域的变化,文字拼写的变化使上述技术不适用)<br>
<br>
B. 启发式过滤技术(Heuristic)<br>
<br>
(注:由于上述技术主要依靠的是一种对邮件内容进行统计学分析及DNA分析的技术,因此比起A种技术有了很大进步,但由于依靠内容分析,因此受语言环境的限制,同时也很容易被垃圾邮件制造者功破,垃圾邮件制造者已公然在其网站上挑战这一技术,而统计分析误差较大,因此误报率很高. 典型产品:趋势科技的SP)<br>
<br>
C. 贝叶斯技术(BAYESIAN)<br>
<br>
(注: 上述技术在对邮件内容进行统计学分析的同时,加入了自我学习的功能,在客户端应用经过一段时间的学习后准确率比B种技术有了很大提高,但由于其依靠内容分析,因此也会受语言环境限制,而其统计分析也有相当的误差,因此其误报率也是偏高. 典型产品:塞门铁客收购的BRIGHTMAIL)<br>
<br>
也有些产品也综合了黑白名单的技术.这种技术怎样,许多人已有体会,不在此重复.但垃圾邮件不是黑或白的关系,因此这种技术的局限显而易见.<br>
<br>
解决问题的方法应该是避免内容分析,因为内容分析容易被垃圾邮件制造者攻破,误差较大且受语言环境的制约.解决问题还需要服务器端和客户端相结合,服务器解决85%左右,客户端解决15%左右(因人而异部分). 这种全新的技术叫作RPD技术.不依靠内容的分析,不受语言环境的限制,误报率为零.垃圾邮件检测率>97%.<br>
<br>
时间关系,下次再谈<br>
<br>
......<br>
<br>
re:目前,大家对市场上提供的防垃圾邮件产品均...
目前,大家对市场上提供的防垃圾邮件产品均不太满意.分析一下原因,大致可归为以下几类:<br><br>
1. 垃圾邮件的定义;<br>
2. 技术本身的缺陷,如上文;<br>
3. 技术本身的应变能力;<br>
4. 等.<br>
<br>
之所以说有垃圾邮件的定义问题,是因为在我们用户还在讨论垃圾邮件的定义问题而未有定论的时候,厂家的产品已推向市场.殊不知,当一个这样的产品推向市场时,厂家第一个要回答的问题既是垃圾邮件的定义问题.换句话说,厂家已在其产品中包含了他认为应当如何处理垃圾邮件的规则及逻辑.用户不满意,显然是这样的规则及逻辑与用户的需求出现了偏差.<br>
<br>
造成这种偏差的原因很多,如:<br>
<br>
1. 厂家一方的定义难以代表大家.厂家的规则紧一紧,用户许多正当的邮件就可能被过滤掉;厂家的规则松一松就有可能将垃圾放进来;这个度殊难掌握;<br>
<br>
2. 简单的过滤技术难以完成垃圾邮件的过滤,因为地址的变化,内容的变化;<br>
<br>
3. 内容或词的过滤(如:启发式技术 heuristic, 贝叶斯技术)难以完成垃圾邮件的过滤,因为内容的变化,图象邮件(邮件的内容为图象),语言环境的制约,等等;<br>
<br>
4. RBL技术也难以完成垃圾邮件的阻隔,因为你不能将yahoo,hotmail,sina等列入你的黑名单.<br>
<br>
除了上述原因外,有人对可称为垃圾邮件的邮件进行过调查,其中近80%的邮件100%的人会认为是垃圾邮件,而其中近20%的邮件则因人而异.据调查,就是这20%主要构成了上述偏差.这也是主要为什么目前诸多反垃圾邮件产品不近人意的原因.<br>
<br>
为此,我们有理由分析一下这20%可称为垃圾邮件的邮件.据分析其构成主要是:<br>
<br>
1. 厂家的newsletter;<br>
2. 商家的广告<br>
3. 等等.<br>
<br>
需要说明一点,与真正的垃圾邮件不同,这些邮件的发件人基本上是真实地址,因此处理起来也相对容易.难的是对这一部分邮件是否是垃圾邮件则因人而异,也因此,它对厂家的要求为更高.<br>
<br>
回头看市场上的产品,它们最大的共同之处既是其规则,策略的制订是基于对邮件的内容或词的分析.它的最大好处在这里,它的最大弱点也在这里.前一分钟的垃圾邮件与后几分钟垃圾邮件的内容已可不同,图象邮件更没有所谓的内容或词,一个词的千百种组合也使这样的技术难以适应,更何况内容或词的分析受语言环境的制约,等等.<br>
<br>
有鉴于此,解决问题的方法应包括以下:<br>
<br>
1. 实时性(能跟上垃圾邮件的多种变化);<br>
2. 避免内容分析(很容易被垃圾邮件制造者利用);<br>
3. 解决因人而异的问题.<br>
4. 等等.<br>
<br>
有一种RPD技术正是将上述几项进行了有机的结合,它不依靠内容的分析,不受语言环境的限制,误报率为零.垃圾邮件检测率>97%.<br>
<br>
时间关系,下次再谈<br>
<br>
......<br>
<br>
re:非常感谢hijack 的帖子!让我们能够...
非常感谢hijack 的帖子!让我们能够更加认识垃圾邮件及其防范手段!re:完了么?何为RPD?
完了么?何为RPD?re:好东西一定要顶!
好东西一定要顶!
页:
[1]