首页 | 邮件资讯 | 技术教程 | 解决方案 | 产品评测 | 邮件人才 | 邮件博客 | 邮件系统论坛 | 软件下载 | 邮件周刊 | 热点专题 | 工具
网络技术 | 操作系统 | 邮件系统 | 客户端 | 电子邮箱 | 反垃圾邮件 | 邮件安全 | 邮件营销 | 移动电邮 | 邮件软件下载 | 电子书下载

反垃圾邮件

技术综述 | 客户端 | 服务器端 |
首页 > 反垃圾邮件 > 服务器端反垃圾邮件技术 > 《梭子鱼用户大学》系列课程:第三章 > 正文

《梭子鱼用户大学》系列课程:第三章

出处:梭子鱼 作者:梭子鱼 时间:2007-12-20 1:13:36
贝叶斯算法及贝叶斯过滤模块的使用

贝叶斯算法介绍:贝叶斯是基于概率的一种算法,是一位伟大的数学大师thomas bayes所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯过滤器是基于“自我学习”的智能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智能邮件过滤技术中,贝叶斯(bayesian)过滤技术取得了较大的成功,被越来越多地应用在反垃圾邮件的产品中。  
 
贝叶斯算法原理:贝叶斯算法是收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。首先使用常规的分词手段和程序将一段文字或内容切词(tokenize)成一些单词字符串(token串),然后用数学方法建立哈希表对应两个集,通过对token串的出现频率的统计和token串本身的好坏评分设置,来计算出整体语段既文章内容的偏向概率,即偏向于非垃圾邮件集的整体评价为负分;偏向于垃圾邮件集的整体评价为正分,这其中它要对每个token串和出现次数进行统计计算,最后复合所有token串的结果总和。
    如果要更详细的了解其中的过程,请查看:http://www.5dmail.net/html/2006-5-18/2006518234548.htm
 
梭子鱼的贝叶斯模块:
    梭子鱼的贝叶斯模块分为全局的贝叶斯库和分用户的贝叶斯库两大部分。其中400以下型号只有全局贝叶斯库。
    使用梭子鱼的贝叶斯模块进行判断垃圾邮件之前,必须先培训一部分垃圾邮件和正常邮件集来提供给系统判断依据。梭子鱼系统上的贝叶斯模块默认是不工作的,必须在培训的垃圾邮件和正常邮件集超过200封才开始启动。见如图全局贝叶斯库(基本设置——贝叶斯/意图分析):
 
 
梭子鱼贝叶斯库的培训:
 
    梭子鱼全局贝叶斯库的培训在邮件日志中。每条邮件日志记录前面都有一个选择框,可以手工选择其,点击“垃圾邮件”或“正常邮件”按钮将其培训/归类为垃圾邮件或正常邮件。但是必须是邮件分类是“未知”的才能培训,如果是“n/a”的则不能对其进行培训/归类。
 
 
优化梭子鱼贝叶斯库:
 
    在梭子鱼贝叶斯库的培养当中,需注意以下几点:
    1.尽量培训信体正文含有普通文字内容的邮件。有些邮件往往只有一个标题,没有正文或正文只有寥寥几字,或只有带有附件,或者只包含一些图片及链接;这种邮件的培训后的效果是很低的,没有价值,原因我们也知道了,因为不能获取有价值的token串和频率。
    2.尽量不要培训单封邮件信体正文内容文字很长(比如超过5k-10k的正文),一般文字内容重复很多的邮件,这种样本如果培训到贝叶斯库中,因为其中包含了巨大量的token串,会对贝叶斯库整体的评分侵向有较大的影响,很可能减低你贝叶斯库的精准性。
    3.尽量不要对前后收到的同一类或信体近似的邮件做前后不同的归类判断。
    4.不需要对同一封垃圾邮件的不同副本做过多次数的重复培训。一般来说,如果有一封类似的垃圾邮件多次进入并没有正确被阻断,只要培训一到两次就可以了,因为贝叶斯的正负评分值范围是有上限的,一般培训了两三次之后就对里面的token串加权了比较高的分值了,如果重复加权次数过多,会影响对其他词语和词序的评分。
    如果碰到有垃圾邮件培训后分值还不能达到阻断分值得,可以考虑降低总的阻断分值,或采用其他方法来阻断它,比如黑白名单,自定义关键词的设定等。
    5.贝叶斯库不是越大越多条数越好,控制在精确才是最有效的。如果数据过多,反而会使机器处理速度大受影响,效率大大降低,得不偿失了。一般的来说控制在500条以上,2000条以下是比较适合的。
    6.要注意贝叶斯库的时效性。应为垃圾邮件的时效性是很强的,往往过了几个月后垃圾邮件就面貌全新了,这时根据以往垃圾邮件词语培训起来的贝叶斯库可能判断的准确率就下降了。这个时候,最好是不要可惜,直接“重新初始化”来重新开始培训一个全新的贝叶斯库。如果你没有那么多的时间和精力,那也可以在原来库的基础上一直细水流长的培训下去,也是能改善整体效果不落后的。不过相对就受原贝叶斯库的干扰,精准性没有重新培训的来的好了。
 
 
梭子鱼分用户贝叶斯库:
 
    在400以上高级梭子鱼型号当中,每个有隔离区帐号的用户可以培训自己的分用户贝叶斯库,除了在其隔离邮件列表界面中可以进行操作外,也可以下载一个梭子鱼的outlook插件或lotus notes插件进行培训操作。要下载插件,管理员必须在基础设置——贝叶斯/意图分析菜单中开放插件的下载,如图:
 
开放后,普通用户即可在梭子鱼登陆界面看到下载链接。如图:



rbl的原理,使用,以及补充手段

rbl名词解释 rbl即实时黑名单列表,或者叫做动态黑名单列表。是指使用一个独立的或第三方组织提供的实时动态更新的黑名单库,当反垃圾邮件设备接受邮件时通过对来源ip在rbl库中查询比对,来确认此来源发送地址是否为发垃圾邮件者的惯用ip地址,从而进行快速阻断发垃圾邮件企图的技术。

rbl的查询原理:当你使用rbl进行判断ip是否为黑名单地址的时候,其实是通过dns查询来实现的,你的反垃圾邮件爱你设备将要判断的的ip地址和提供rbl的组织的地址/域名组合成一个地址通过你设置的dns进行查询,比如国内著名的rbl,中国反垃圾邮件联盟的cbl地址是:cbl.anti-spam.org.cn,现在有个202.96.205.64的地址发邮件请求过来,反垃圾邮件设备将这个地址提交到cbl上进行查询:首先组合成地址 202.96.205.64.cbl.anti-spam.org.cn 通过本机设置的dns服务器,如电信的dns202.96.209.5 发送查询请求,通过dns缓存或递归查询到cbl.anti-spam.org.cn的地址,将202.96.205.64做为子域的形式提交查询,根据cbl.anti-spam.org.cn返回的结果来判断是否这个ip被加入了该rbl中,一般情况下如果返回无效记录/空记录的,证明这个地址不在这个rbl那,返回具体内容的表示该ip在该rbl中(一般的rbl都返回一个127.0.0.1的本机地址表示)。

这里附带介绍下dns劫持的产生:通过上面的rbl查询过程描述,大家应该清楚了,dns劫持就是发生在电信dns在返回由rbl组织服务器发回的无效记录/空记录德时候,将无效记录/空记录改成了其自己的地址,从而将查询请求劫持到其臭名昭著的“互联星空”或“114”上。关于这方面如果需要进一步详细了解的,可以参考下面这篇由一位梭子鱼代理商工程师写的非常好的文章:http://www.5dmail.net/html/2007-3-14/2007314190104.htm

rbl的使用:

由此可见,使用rbl进行过滤的时候,dns的性能和选择是很重要的。要顺利的使用rbl服务,除了要有一个良好的网络宽带环境外,dns服务器的选择和设置,防火墙上允许相关的dns端口等的设置都是很有关系的,大家在使用下面的常用rbl列表中的rbl服务器的时候,可以考虑使用网通等的dns做解析。

常用的rbl列表:

sbl.spamhaus.org

xbl.spamhaus.org    spamhaus是目前世界上最大的也是最权威的第三方rbl组织之一,它提供了sbl和xbl两个动态黑名单列表

relays.ordb.org    www.ordb.org提供的开发转发地址列表,一个老牌的rbl

bl.spamcop.net    位于俄国的反垃圾邮件组织spamcop提供的rbl

cbl.anti-spam.org.cn

cdl.anti-spam.org.cn    中国反垃圾邮件联盟提供的rbl,分为cbl+,cbl,cdl等多个动态黑名单列表

其他还有:
infinite-monkeys    proxies.relays.monkeys.com
njabl    dnsbl.njabl.org
osirusoft.com    relays.osirusoft.com
maps-rbl    blackholes.mail-abuse.org
maps-dul    dialups.mail-abuse.org
maps-rss    relays.mail-abuse.org
maps-rbl+    rbl-plus.mail-abuse.ja.net
easynet-dnsbl    blackholes.easynet.nl
easynet-proxies    proxies.blackholes.easynet.nl
easynet-dynablock    dynablock.easynet.nl
osirusoft-spews    spews.relays.osirusoft.com
等100多个(
http://www.declude.com/junkmail/support/ip4r.htm)。

梭子鱼黑名单(bbl):

由业界最著名的反垃圾邮件公司梭子鱼提供的全球黑名单列表:bbl——barracuda  block list。

梭子鱼公司凭借其强大的实力,以全球4万多台梭子鱼设备和许多的蜜罐为基础,收集和创建了bbl,此前已经正式在梭子鱼所有客户设备上开始工作了。

如果由于受dns劫持影响而罢工的常用rbl,可以关闭他们,只启用bbl。梭子鱼中心提供了bbl库的查询和撤销通道:http://www.barracudacentral.com/index.cgi?p=iplookup

 

静态黑白名单(ip黑白名单)设定:

由于rbl是针对ip进行屏蔽的,快速高效的同时,难以避免会有误判的情况发生,因此做为补充手段,梭子鱼以及大部分反垃圾邮件设备都提供了这个静态黑白名单的设置做为补充。

需要清楚的是,这里的静态黑白名单的设置优先级是高于rbl动态黑白名单服务的。因此可以手动添加一些ip地址来避免和排除在rbl的阻断之外。  

注:新的一些梭子鱼版本(3.4.10.x以上)已经添加了一个专用的“排除rbl列表”的设置,来专门用于设置排除的这类ip。

意图分析/指纹检测的介绍和使用

意图分析是什么?意图分析的
分类意图分析是梭子鱼产品特有的一种过滤模块,梭子鱼邮件意图分析提取出邮件发送的url地址,与已知发送垃圾邮件地址数据库中url相匹配,从而阻断发垃圾邮件企图的技术。梭子鱼的意图分析模块分为邮件意图分析和实时意图分析两种(最新版本中还出现了一种可以跟踪多层url地址目标的多层意图分析),前者是针对邮件信体中的url进行匹配的,后者则需要直接连接梭子鱼中心来实时检测最新的垃圾邮件发送者列表。因此,打开实时意图分析功能将会增加少许扫描邮件的时间,因为梭子鱼需要进行dns查询,并返回结果。而且实时意图分析现在会受到电信dns劫持现象的干扰,可能会产生一些误判。

 
意图分析模块的使用:使用意图分析的设置相对简单,你只需要在基础——贝叶斯/意图分析菜单中分别开启邮件意图分析或实时意图分析模块即可。采用的方式可以为阻断,隔离,标记的任何一种。见下图: 
 
 
意图分析的调整如果意图分析工作正常,仍有发生有几个正常网址因此被误阻断,可以通过将它们添加到意图分析的排除名单中来实现排除,而不需要关闭整个意图分析模块。
 
 
什么是邮件指纹分析? 邮件指纹分析也是梭子鱼产品比较特别的一种过滤模块,它是一种“先念式”的过滤方法,即通过预先散布在互联网各处的邮件诱饵信箱或称“蜜罐”来不断收集新的垃圾邮件,通过程序分析的方法提取一些特征值,这些特征值对应相应的邮件来说就是指纹,梭子鱼邮件指纹分析模块在检查邮件时通过即时生成指纹,与梭子鱼控制中心总部数据库中的指纹数据库进行匹配,如果有完全一样的指纹,则证明这封邮件是之前收到的那种垃圾邮件,从而进行阻断操作。这种过滤方法的好处是其基本上是百分之百准确,但缺点也很明显,只能识别已经收集到的垃圾邮件。 
 
邮件指纹分析的使用:操作十分简单,在基础——贝叶斯/意图分析菜单中将邮件指纹分析模块打开即可,同样它可以采用阻断,隔离或标记的任何一种方式。见下图: 
 
 
相关文章 热门文章
  • 《梭子鱼用户大学》系列课程:第三章第七节--梭子鱼外发过滤功能介绍与设置
  • 《梭子鱼用户大学》系列课程:第三章第六节---梭子鱼高端扩展功能的介绍和使用
  • 《梭子鱼用户大学》系列课程:第三章第五节--梭子鱼专家模式及其使用
  • 《梭子鱼用户大学》系列课程:第二章
  • 《梭子鱼用户大学》系列课程:第一章
  • Imail反垃圾邮件技术
  • Qmail反垃圾邮件技术
  • 防范垃圾邮件技术
  • 谢绝第三方邮件转发
  • Postfix反垃圾邮件技术
  • Sendmail反垃圾邮件技术
  • 追踪垃圾邮件来源
  • 邮件过滤技术
  • OPEN RELAY的解决方案
  • 美讯智SMG邮件安全网关使用FAQ
  • 三分钟打造反垃圾邮件服务器
  • 黑名单服务器
  • 自由广告区
     
    最新软件下载
  • SharePoint Server 2010 部署文档
  • Exchange 2010 RTM升级至SP1 教程
  • Exchange 2010 OWA下RBAC实现的组功能...
  • Lync Server 2010 Standard Edition 标..
  • Lync Server 2010 Enterprise Edition...
  • Forefront Endpoint Protection 2010 ...
  • Lync Server 2010 Edge 服务器部署文档
  • 《Exchange 2003专家指南》
  • Mastering Hyper-V Deployment
  • Windows Server 2008 R2 Hyper-V
  • Microsoft Lync Server 2010 Unleashed
  • Windows Server 2008 R2 Unleashed
  • 今日邮件技术文章
  • 腾讯,在创新中演绎互联网“进化论”
  • 华科人 张小龙 (中国第二代程序员 QQ...
  • 微软推出新功能 提高Hotmail密码安全性
  • 快压技巧分享:秒传邮件超大附件
  • 不容忽视的邮件营销数据分析过程中的算..
  • 国内手机邮箱的现状与未来发展——访尚..
  • 易观数据:2011Q2中国手机邮箱市场收入..
  • 穿越时空的爱恋 QQ邮箱音视频及贺卡邮件
  • Hotmail新功能:“我的朋友可能被黑了”
  • 入侵邻居网络发骚扰邮件 美国男子被重..
  • 网易邮箱莫子睿:《非你莫属》招聘多过..
  • 中国电信推广189邮箱绿色账单
  • 最新专题
  • 鸟哥的Linux私房菜之Mail服务器
  • Exchange Server 2010技术专题
  • Windows 7 技术专题
  • Sendmail 邮件系统配置
  • 组建Exchange 2003邮件系统
  • Windows Server 2008 专题
  • ORF 反垃圾邮件系统
  • Exchange Server 2007 专题
  • ISA Server 2006 教程专题
  • Windows Vista 技术专题
  • “黑莓”(BlackBerry)专题
  • Apache James 专题
  • 分类导航
    邮件新闻资讯:
    IT业界 | 邮件服务器 | 邮件趣闻 | 移动电邮
    电子邮箱 | 反垃圾邮件|邮件客户端|网络安全
    行业数据 | 邮件人物 | 网站公告 | 行业法规
    网络技术:
    邮件原理 | 网络协议 | 网络管理 | 传输介质
    线路接入 | 路由接口 | 邮件存储 | 华为3Com
    CISCO技术 | 网络与服务器硬件
    操作系统:
    Windows 9X | Linux&Uinx | Windows NT
    Windows Vista | FreeBSD | 其它操作系统
    邮件服务器:
    程序与开发 | Exchange | Qmail | Postfix
    Sendmail | MDaemon | Domino | Foxmail
    KerioMail | JavaMail | Winwebmail |James
    Merak&VisNetic | CMailServer | WinMail
    金笛邮件系统 | 其它 |
    反垃圾邮件:
    综述| 客户端反垃圾邮件|服务器端反垃圾邮件
    邮件客户端软件:
    Outlook | Foxmail | DreamMail| KooMail
    The bat | 雷鸟 | Eudora |Becky! |Pegasus
    IncrediMail |其它
    电子邮箱: 个人邮箱 | 企业邮箱 |Gmail
    移动电子邮件:服务器 | 客户端 | 技术前沿
    邮件网络安全:
    软件漏洞 | 安全知识 | 病毒公告 |防火墙
    攻防技术 | 病毒查杀| ISA | 数字签名
    邮件营销:
    Email营销 | 网络营销 | 营销技巧 |营销案例
    邮件人才:招聘 | 职场 | 培训 | 指南 | 职场
    解决方案:
    邮件系统|反垃圾邮件 |安全 |移动电邮 |招标
    产品评测:
    邮件系统 |反垃圾邮件 |邮箱 |安全 |客户端
    广告联系 | 合作联系 | 关于我们 | 联系我们 | 繁體中文
    版权所有:邮件技术资讯网©2003-2010 www.5dmail.net, All Rights Reserved
    www.5Dmail.net Web Team   粤ICP备05009143号