2004年,比尔.盖茨曾信誓旦旦地预言微软能够在未来消灭垃圾邮件,他所期望的就是Sender ID技术,但最近他收回了他的预言。这也就是标准之争,微软希望IETF能够采用Sender ID技术作为标准,并且得到了大量支持,比如Cisco、Comcast、IBM、Port25、Sendmail、Symantec、VeriSign等,也包括后来又倒戈的AOL的支持。但是在开源社区,微软一直没有得到足够的支持,IETF最终否决了微软的提议。
Sender ID技术主要包括两个方面:发送邮件方的支持和接收邮件方的支持。其中发送邮件方的支持主要有三个部分:发信人需要修改邮件服务器的DNS,增加特定的SPF记录以表明 其发信身份。接收邮件方的支持有:收信人的邮件服务器必须采用Sender ID检查技术,对收到的邮件检查PRA或MAIL FROM,查询发件者DNS的SPF纪录,并以此验证发件者身份。
现在很多反垃圾邮件方案都不会只采用一种技术,而是多种多类技术的综合体。要想从根本上解决反垃圾邮件的技术难题,必须从事先原理出发,从邮件内容进一步往前提一步, 做到主动性垃圾邮件行为模式识别的技术,这样才能做到主动型的邮件攻击行为防御、主动型的垃圾邮件阻断,从而最大程度地提高垃圾邮件识别率、拦截率,降低资源消耗,真正达到电信级的网关处理速度。
ISP提供的虚拟主机服务,一旦某个用户被认定发送垃圾邮件,就会导致整个IP区域被列入黑名单,其它的用户也会受到牵连。
与杀毒软件类似,通过建立“垃圾邮件特征库”的方法来阻止垃圾邮件,通过对邮件的信封、信头、信体等内容进行对比检测,从而对垃圾邮件进行阻止。但是,随着垃圾邮件制造者的技术水平不断提高,这种方法很容易失效。另外,可以通过相互认证的服务器和用户之间建立信任关系,以此来避免垃圾邮件的发送。当然,由于邮件服务器的数量非常巨大,这种做法实现起来比较困难。不过,现在已经有一些邮件服务器之间建立了关联,并且采用了一些全新的技术。如针对垃圾邮件传播者惯用的伪造成同域用户的伎俩,就可以利用同域认证技术,经过该技术的过滤,凡是那些伪装成同域用户的邮件,都会被打入垃圾邮件的黑名单,以保证邮件的安全。
除此之外,人们还采用了HASH技术以及贝叶斯(Bayesian)算法。贝叶斯算法可以学习单词的频率和模式,这样可以同垃圾邮件和正常邮件关联起来进行判断。这是一种相对于关键字来说,更复杂和更智能化的内容过滤技术。
黑白名单存在弊端 大部分情况下,邮件服务商和企业还是主要通过服务器过滤垃圾邮件,利用在反病毒软件中单独或者增加了防范垃圾邮件的功能或者购买专业的反垃圾邮件产品。目前安全厂商所提供的反垃圾邮件产品一般分为两种:一种是在防病毒软件或安全网关当中集成反垃圾邮件功能;另一种就是专门的反垃圾邮件产品。由于安全厂商都是从信息安全起家的,虽然安全技术堪称一流,但是,他们对邮件的认识还存在一些盲点。因此,大多数的反垃圾邮件功能,还是基于黑名单或关键词过滤等方法。虽然实时黑名单、内容过滤看上去的确不错,但关键字的规则有几万条,对网络资源消耗过大。
传统的反垃圾邮件方法没有节省流量和存储资源,反而增加了计算的难度。垃圾邮件不是在空中拦截,而是通过把邮件缩小,截获样本来寻找关键字,经过分析之后再判断是否是垃圾邮件。然而,这样的模式却对流量和网络资源产生了较大的影响。其次,关键字的规则是一种被动的思路,需要根据不断变化的垃圾邮件特征进行变化,就像防病毒技术一样,需要针对新病毒的特征,才能更新病毒库,对其进行防护。Mirapoint公司亚太区总监任兆雄说:“每天不同内容的垃圾邮件有几千万,甚至上亿封,没有哪家安全厂商有足够的实力和时间来分析和把握这些关键字的特征。而且,垃圾邮件内容特征变化很快,比病毒变化快得多。”
另外,以内容过滤为主导的技术,容易受到内容的干扰,容易造成误判断。任兆雄举了一个例子,社会科学院的一些教授和台湾的一些学者有学术往来,因此在邮件来往过程中会针对一些敏感问题进行探讨和辩论。因为这些内容涉及需要过滤的关键字,所以邮件经常被删除。相反,各种垃圾邮件则往往采取更加隐秘的手段,反而有可能顺利通过网关。任兆雄认为, “传统反垃圾邮件技术,基本上还是沿用了黑白名单的方式,基本遵循‘截获样本—解析特征 —生成规则—分发规则—内容过滤’的原理。这种十几年来一直沿用的方法,无法跟上不断变化和发展的垃圾邮件技术,也为网络资源造成了较大的影响。”
判断垃圾邮件靠行为 据统计,我国目前已经成为全球第二大垃圾邮件受害国,我国用户平均每周收到的垃圾邮件数超过邮件总数的60%,部分企业每年为此投入上百万元的设备和人力。巨大的市场需求驱动了各安全厂家在防垃圾邮件产品方面的研发投入逐渐加大。目前国内市场上已经有了数十个防垃圾邮件产品,分别采用三代不同的反垃圾邮件技术。这三代技术目前同时存在于市场上,但是,到底哪种技术更适合解决垃圾邮件问题呢?
由于第一代和第二代的过滤技术始终没有跳出内容匹配过滤的技术局限,仅仅是对孤立的词语进行匹配,抛弃了连贯性,从而无法正确对邮件进行判别,于是造成邮件的大量误判。同时,这两种技术需要进行大量的匹配运算,对CPU和内存的占用极高,这样就很容易成为处理瓶颈。
而最新的防范垃圾邮件的方法是通过行为判断垃圾邮件。行为识别技术能够高效、准确地区分垃圾邮件与正常邮件,使得采用任何垃圾邮件发送技术发出的垃圾邮件都无法躲过它的检测。很多安全厂商相继推出了基于行为识别技术的第三代防垃圾邮件网关。该技术对大量的垃圾邮件样本进行了统计、分析和计算,并且根据RFC.822标准,建立了垃圾邮件发送的行为识别模型。这一模型能够在MTA通信阶段就判断出所接收邮件是否为垃圾邮件,不需要接受全部的邮件内容进行相应的内容匹配,从而提高了邮件过滤速度,减少了网络延迟,同时还避免了内容过滤技术不可避免的高误报率问题,也提高了对垃圾邮件的识别精度。