ORF的垃圾率不等于垃圾识别率
ORF的垃圾率不等于垃圾识别率其实orf的垃圾识别率并不是"邮件垃圾率(spam ratio)"那个数,邮件垃圾率低并不是代表识别率低.假设一个公司的垃圾邮件比较少, 假设只拒绝了1000封, 放过了2000封, 垃圾率=1000/(1000+2000)=33.33%
再假设放过的那2000封只有20封是垃圾, 那垃圾识别率=1000/(1000+20)=98.03%
下图:
拒绝:56122 被过滤掉, 这些邮件全部当做是垃圾邮件
忽略:638白名单里的邮件不过滤,不算识别部分(不算orf功劳)
允许:4052 经过过滤, 这部分邮件当做合法邮件
不算忽略那部分, 则总邮件数为(56122+4052), 其中56122是当做垃圾.
垃圾率: 56122/(56122+4052)=93%
在那允许的4052封,暂且保守认为其中一半(2026封)是垃圾没被识别出来,
垃圾识别率: 56122/(56122+2026)=96.5%
其实真实环境下允许的那部分(4052封)绝大部分还是合法邮件, 就假设1000封是垃圾的话
垃圾识别率: 56122/(56122+1000)=98.2%
[ 本帖最后由 atong999888 于 2007-1-17 08:31 编辑 ] 呵呵,这个帐应该大家都会算。 大部分人会, 也有一部分人问我那个垃圾识别率怎么那么低, 有些还没达到90%.
回复 #3 atong999888 的帖子
呵呵;P ;P ;P 原帖由 atong999888 于 2007-1-17 00:02 发表 http://bbs.5dmail.net/images/common/back.gif假设一个公司的垃圾邮件比较少, 假设只拒绝了1000封, 放过了2000封, 垃圾率=1000/(1000+2000)=33.33%
再假设放过的那2000封只有20封是垃圾, 那垃圾识别率=1000/(1000+20)=98.03%
根据上面的总的假设,我觉得准确的垃圾率应该是(1000+20)/(1000+2000)=34% 呵呵。哪是atong再假设20出来的出来后的计算识别率的方法。 原帖由 钉子 于 2007-4-14 09:17 发表 http://bbs.5dmail.net/images/common/back.gif
呵呵。哪是atong再假设20出来的出来后的计算识别率的方法。
是假设出来的,,但是实际上肯定是有漏掉的垃圾邮件。。。。只是这个漏掉的垃圾邮件只怕是没法统计出来的。。。
而这个漏掉的垃圾邮件又跟垃圾识别率有关。。。所以。。很奇怪。。反垃圾公司做广告说的垃圾识别率一定统计的很辛苦。。。
[ 本帖最后由 紫玄冰 于 2007-4-14 10:04 编辑 ] 漏掉的肯定是会的, 一般反垃圾公司做广告说的垃圾识别率一般都是用自己做的垃圾样本去做测试。
曾经有人问过在ORF怎么看垃圾识别率, 说实在要让一个ORF自己写出垃圾识别率是不可能的, 任何产品都不可能, 因为根本无法让反垃圾系统知道有多少垃圾邮件漏掉.
系统能知道有多少邮件(包含个别正常邮件)被判为垃圾, 能统计出一个大概的垃圾率(不是识别率). 1.呵呵,紫玄冰真是认真,我6楼的意思只是说,再假设部分是为了计算识别率给出的。除非在第三再加一个实际垃圾率的计算方法。
2.漏判是正常的,只是要看漏判的比率。而且如atong所言,有漏判是很难让ORF计算出来的。只能有用户反馈及管理员统计。
3.最需要关心的是误判。
页:
[1]