首页 | 邮件资讯 | 技术教程 | 解决方案 | 产品评测 | 邮件人才 | 邮件博客 | 邮件系统论坛 | 软件下载 | 邮件周刊 | 热点专题 | 工具
网络技术 | 操作系统 | 邮件系统 | 客户端 | 电子邮箱 | 反垃圾邮件 | 邮件安全 | 邮件营销 | 移动电邮 | 邮件软件下载 | 电子书下载

反垃圾邮件

技术综述 | 客户端 | 服务器端 |
首页 > 反垃圾邮件 > 服务器端反垃圾邮件技术 > 图片垃圾邮件过滤 FuzzyOcr > 正文

图片垃圾邮件过滤 FuzzyOcr

出处:http://www.yijiaqing.cn/blog/article.asp?id=471 作者:松鼠 时间:2013-4-25 0:12:10
一、FuzzyOcr简介
    部分垃圾邮件采用图片或PDF的方式来发送邮件,这些垃圾邮件在图片内容加入大量的噪声数据(noisy data),以避开扫描引擎的侦测。
    FuzzyOcr是利用光学字符识别(OCR)的方式,来识别图像邮件所包含的文字信息,并利用Fuzzy matching算法,辨别出里面的文字;

FuzzyOcr的功能:
1、光学字符识别使用不同的引擎和设置;
2、模糊词匹配算法应用于光学字符识别结果;
3、图像散列系统,以了解已知的垃圾邮件图像独特属性;
4、尺寸,大小和完整的图像检查;
5、内容类型核查包含电子邮件;
6、匹配和学习技巧;
7、支持DB,可将处理过的图片,以feature vectors的形态储存在数据库,因此相同或是类似的图片,便可以利用储存在DB的特征向量来处理;

二、配置FuzzyOcr
1、安装依赖
# rpm -ivh http://packages.sw.be/rpmforge-release/rpmforge-release-0.3.6-1.el5.rf.i386.rpm
# yum install giflib-utils gifsicle netpbm-progs ocrad gocr perl-String-Approx

2、安装FuzzyOcr
# rpm -ivh spamassassin-FuzzyOcr-3.6.0-9.noarch.rpm
3、配置FuzzyOcr
FuzzyOcr的配置文件,基本上不用修改就可以使用,下面参数请根据自己的情况修改。
# vi /etc/mail/spamassassin/FuzzyOcr.cf

内容如下:
##开启日志,日志有4种级别(0-3),数值越大,日志越详细。
focr_logfile /var/log/FuzzyOcr.log

##扫描命令,根据自己的需要添加或减少
focr_bin_helper pnmnorm, pnminvert, pamthreshold, ppmtopgm, pamtopnm
#focr_bin_helper tesseract

##扫描最大运行时间,默认是10秒
#focr_timeout 15

##最小图像尺寸,小于这个参数的图片将被跳过,此参数不适用于PDF文件
#focr_min_height 4
#focr_min_width 4

##最大图像尺寸,大于这个参数的图片将被跳过,此参数不适用于PDF文件
#focr_max_height 800
#focr_max_width 800

##不同格式的最大图片大小,单位是"byte",大于这个参数的图片将不会扫描,默认值:无限制
#focr_max_size_gif 80000
#focr_max_size_jpeg 100000
#focr_max_size_png 80000
#focr_max_size_bmp 500000
#focr_max_size_tiff 500000

##跳过以下图像类型的检查,默认值:0 (检查图像类型)
#focr_skip_gif 1
#focr_skip_jpeg 1
#focr_skip_png 1
#focr_skip_bmp 1
#focr_skip_tiff 1

##定期情况临时目录
#focr_keep_bad_images 1


4、备注:配置FuzzyOcr数据库
如果你想采用数据库来存储邮件特征,FuzzyOcr有两种数据库存储方式,第一种是Hash,第二种是MySQL,这里我只结束MySQL存储方式。

建立数据库
# mysql -u root -p -e "create database FuzzyOcr"
# mysql -u root -p -e "grant all on FuzzyOcr.* to fuzzyocr@localhost identified by 'ruzzyocr'"
# mysql -u root -p FuzzyOccr < /usr/share/doc/spamassassin-FuzzyOcr-3.6.0/FuzzyOcr.mysql

配置FuzzyOcr
# vi /etc/mail/spamassassin/FuzzyOcr.cf
##设置MySQL数据库名、用户名、密码、SOKCET
focr_mysql_db FuzzyOcr
focr_mysql_hash Hash
focr_mysql_safe Safe
focr_mysql_user fuzzyocr
focr_mysql_pass fuzzyocr
focr_mysql_host localhost
#focr_mysql_port 3306
focr_mysql_socket /tmp/mysql.sock

##从下列选项采用不同的数据更新数据库表,默认是0
#focr_mysql_update_hash 1

三、测试:
# service amavisd reload
# spamassassin --lint

示例分析
一封邮件信头:
X-Spam-Level: ***********************************
X-Spam-Status: Yes, score=35.41 tagged_above=-10 required=5
    tests=[DSPAM:Innocent=-1.000, ALL_TRUSTED=-1.44, DSPAM_HAM_99=-3.23,
    FH_DATE_PAST_20XX=3.384, FUZZY_OCR=34.500, LONGWORDS=3.196]
    autolearn=no
测试的环境为EMOS-1.5,没有导入DSPAM训练库;发送了一封带图片的垃圾邮件,在信头的绿色部分是DSPAM评分,红色为FUZZY_OCR的评分,可以看到邮件已经被识别为垃圾邮件;


备注:
如果FuyyzOcr不需要tesseract支持,可以不用安装

四、配置tesseract-ocr
    Tesseract的OCR引擎最早由HP实验室于1985年开始研发,到1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年,Tesseract由美国内华达州信息技术研究所获得,并请Google对Tesseract进行改进。目前,Tesseract被认为是最精确的开源 OCR 引擎之一,并支持多国语言。

1、安装依赖
# yum install libgif-devel libjpeg-devel libpng-devel libtiff-devel zlib-devel
# wget https://leptonica.googlecode.com/files/leptonica-1.69.tar.gz
# tar zxvf leptonica-1.69.tar.gz
# cd leptonica && ./configure
# make && make install

2、安装tesseract-ocr
# wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
# tar zxvf tesseract-ocr-3.02.02.tar.gz
# cd tesseract-ocr && ./configure
# make && make install

3、安装tesseract语言包,我这里添加了英文、中文的支持,如果需要其他语言支持,请下载其他的语言包
# wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz
# wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.chi_sim.tar.gz
# wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.chi_tra.tar.gz
解压这些语言包,然后复制到/usr/local/share/tessdata目录,然后测试是否生效
# tesseract --list-langs
List of available languages (3):
chi_sim
chi_tra
eng

4、测试图像识别
# tesseract -v
显示以下内容,说明安装正常。
tesseract 3.02.02
 leptonica-1.69
  libjpeg 6b : libpng 1.2.10 : libtiff 3.8.2 : zlib 1.2.3

使用tesseract-ocr测试识别,识别出来的文件在output文件里面
# tesseract phototest.tif output -l eng

5、配置FuzzyOcr支持tesseract
# vi /etc/mail/spamassassin/FuzzyOcr.cf
内容修改如下:
focr_bin_helper tesseract

6、测试:
# service amavisd reload
# spamassassin --lint


相关文章 热门文章
  • 企业开源电子邮件系统安全保障实战精要: 第 2 部分,Postfix 安全防护实战及垃圾邮件防范
  • 卡巴斯基2013三月垃圾邮件报告
  • 垃圾邮件王者Grum死灰复燃
  • 常见的10种垃圾邮件
  • 反垃圾邮件组织Spamhaus再次遭到75Gbps DDoS攻击
  • 网易邮箱:反垃圾邮件十六年
  • 263张晓丹:反垃圾邮件任重道远 需运营商携手共筑
  • Exchange 2003 升级到Exchange 2010 之启用HUB\CAS的防垃圾邮件代理
  • TURBOMAIL反垃圾邮件清洁工,还你一个清爽的邮箱
  • TurboMail从源头上为企业铸造防垃圾邮件墙
  • 垃圾邮件的污染
  • Exchange 2010 反垃圾邮件 防病毒
  • Imail反垃圾邮件技术
  • Qmail反垃圾邮件技术
  • 防范垃圾邮件技术
  • 谢绝第三方邮件转发
  • Postfix反垃圾邮件技术
  • Sendmail反垃圾邮件技术
  • 追踪垃圾邮件来源
  • 邮件过滤技术
  • OPEN RELAY的解决方案
  • 美讯智SMG邮件安全网关使用FAQ
  • 三分钟打造反垃圾邮件服务器
  • 黑名单服务器
  • 自由广告区
     
    最新软件下载
  • Exchange Server 2013 Cumulative upd...
  • Acronis Disk Director 10
  • WinWebMail Server 3.8.5.1 标准版
  • WinWebMail Server 3.8.5.1 企业版
  • ORF Fusion 5.0 反垃圾邮件软件正式版
  • MDaemon Server 简体中文版
  • Exchange Server 2010 Service Pack 3
  • WinWebMail Server 3.8.3.3 标准版本
  • WinWebMail Server 3.8.3.3 &nbs...
  • WinWebMail Server 3.8.2.1 标准版
  • WinWebMail Server 3.8.2.1 企业版
  • Acronis Disk Director Server 10 正式..
  • 今日邮件技术文章
  • Win8系统Metro应用切换方法
  • Exchange 2013部署系列之(十)信息权限...
  • Exchange 2013部署系列之(九) POP、IM...
  • Exchange 2013部署系列之(八) 邮箱、通..
  • Exchange 2013部署系列之(七) 配置SSL...
  • Exchange Server 2013申请证书
  • Exchange 2013部署之配置邮件流和客户...
  • Exchange 2013部署之NLB负载均衡(五)
  • Exchange 2013部署之DAG配置(四)
  • Exchange 2013部署之分角色部署(三)
  • Exchange 2013部署之先决条件(二)
  • Exchange 2013部署之系统要求(一)
  • 最新专题
  • Windows Server 2012技术专题
  • Windows 8 技术专题
  • Exchange Server 2013技术专题
  • Exchange 2003升级到Exchange 2010
  • 鸟哥的Linux私房菜之Mail服务器
  • Exchange Server 2010技术专题
  • Windows 7 技术专题
  • Sendmail 邮件系统配置
  • 组建Exchange 2003邮件系统
  • Windows Server 2008 专题
  • ORF 反垃圾邮件系统
  • Exchange Server 2007 专题
  • 分类导航
    邮件新闻资讯:
    IT业界 | 邮件服务器 | 邮件趣闻 | 移动电邮
    电子邮箱 | 反垃圾邮件|邮件客户端|网络安全
    行业数据 | 邮件人物 | 网站公告 | 行业法规
    网络技术:
    邮件原理 | 网络协议 | 网络管理 | 传输介质
    线路接入 | 路由接口 | 邮件存储 | 华为3Com
    CISCO技术 | 网络与服务器硬件
    操作系统:
    Windows 9X | Linux&Uinx | Windows NT
    Windows Vista | FreeBSD | 其它操作系统
    邮件服务器:
    程序与开发 | Exchange | Qmail | Postfix
    Sendmail | MDaemon | Domino | Foxmail
    KerioMail | JavaMail | Winwebmail |James
    Merak&VisNetic | CMailServer | WinMail
    金笛邮件系统 | 其它 |
    反垃圾邮件:
    综述| 客户端反垃圾邮件|服务器端反垃圾邮件
    邮件客户端软件:
    Outlook | Foxmail | DreamMail| KooMail
    The bat | 雷鸟 | Eudora |Becky! |Pegasus
    IncrediMail |其它
    电子邮箱: 个人邮箱 | 企业邮箱 |Gmail
    移动电子邮件:服务器 | 客户端 | 技术前沿
    邮件网络安全:
    软件漏洞 | 安全知识 | 病毒公告 |防火墙
    攻防技术 | 病毒查杀| ISA | 数字签名
    邮件营销:
    Email营销 | 网络营销 | 营销技巧 |营销案例
    邮件人才:招聘 | 职场 | 培训 | 指南 | 职场
    解决方案:
    邮件系统|反垃圾邮件 |安全 |移动电邮 |招标
    产品评测:
    邮件系统 |反垃圾邮件 |邮箱 |安全 |客户端
    广告联系 | 合作联系 | 关于我们 | 联系我们
    版权所有:邮件技术资讯网©2003-2016 www.5dmail.net, All Rights Reserved
    www.5Dmail.net Web Team   粤ICP备09060656号