您现在的位置: 中国邮箱网 >> 资讯中心 >> 邮件系统 >> 正文
CCERT中文垃圾邮件过滤规则集
作者:未知 文章来源:中国IT实验室 更新时间:2009-7-2 9:15:45

  1. 什么是 Chinese_rules.cf

  Chinese_rules.cf是用于业界广泛使用的免费垃圾邮件过滤系统SpamAssassin的中文垃圾邮件过滤规则集。由于以前没有中文的过滤规则集,SpamAssassin对中文邮件过滤的准确性不高。CCERT反垃圾邮件研究小组利用CCERT所掌握的最新和丰富的样本数据,推出了第一个基于SpamAssassin的中文垃圾邮件过滤规则集Chinese_rules.cf。该规则集每周更新一次,时效性非常好。

  Chinese_rules.cf是在SpamAssassin 官方网站上发布的第一个中文垃圾邮件过滤规则集,也是用Google,Yahoo,百度,MSN搜索“中文垃圾邮件过滤”时所返回的第一条结果。

  2. Chinese_rules.cf的理论背景

  Chinese_rules.cf是邮件内容过滤规则集。目前邮件内容过滤技术可以分为两种方法:基于规则和基于统计的方法。基于规则的方法就是在邮件内容中寻找特定的模式,例如主题包含“免费”。基于统计的就是使用统计方法解决邮件的二元分类问题,其中分类机跟据垃圾邮件和正常邮件的样本训练出来。在垃圾邮件过滤技术中最常用的统计方法就是贝叶斯准则。

  基于规则方法的优点是规则可以共享,因此它的推广性很强。一个人写出的规则可以提供给多个人,多个服务器使用。然而它的缺点就是更新速度慢。因为规则一般都是人工编写生成,所以新规则的产生速度跟不上新垃圾邮件出现的速度,换句话说,它的时效性较差。

  基于统计的方法的优点就是分类机由程序自动训练出来,只要及时更新样本训练集就可以使分类机更新的速度跟得上垃圾邮件出现的速度,即它的时效性很强。然而该方法的缺点就是分类机不能共享,某个用户用自己的邮件样本集训练出来的分类机对其他用户可能效果不佳,因此该方法的推广性较差。

  Chinese_rules.cf使用基于统计规则的新方法,即它所使用的规则是由统计方法自动生成的。该方法吸取了基于规则和基于统计的优点:因为它是一种基于规则的方法,因此推广性很强,又因为它的规则是由统计方法自动生成的,因此它的时效性也很强。Chinese_rules.cf和传统方法比较如表1所示。

  表1、Chinese_rules.cf和传统方法比较

  推广性时效性

  基于规则好差

  基于统计差好

  Chinese_rules.cf好好

  CCERT反垃圾邮件组自从1998年成立以来,每天都处理大量的垃圾邮件投诉,掌握最新和最丰富的样本数据。Chinese_rules.cf就在此最新和最丰富的样本数据库的基础上,通过统计方法自动产生的。

  3. Chinese_rules.cf的生成和使用框架

  Chinese_rules.cf的生成和使用框架如图1所示。首先,利用CCERT垃圾邮件处理服务和用户反馈信息来维护一个最新,最全的垃圾/正常邮件样本库,再利用统计方法,根据垃圾/正常邮件样本库自动生成规则集Chinese_rules.cf。因为样本库是最新的,Chinse_rules.cf的时效性就非常强。CCERT把该规则集在CCERT主页上发布,作为CCERT提供的一种对外服务。各地用户(

[1] [2] [3] 下一页

文章录入:刘晓亮    责任编辑:刘晓亮 
分享到:

 分享到新浪微博 分享到网易微博 分享到搜狐微博 分享到人人网 分享到QQ书签 分享到豆瓣网 分享到开心网

郑重声明:本文仅代表作者个人观点,与中国邮箱网网站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作出任何保证或承诺,请读者仅作参考,并请自行核实相关内容。发布本文之目的在于传播更多信息,并不意味着中国邮箱网网站赞同或者否定本文部分以及全部观点或内容。如对本文内容有疑义,请及时与我们联系。
最新文章
邮件客户端软件
  • 综合
  • 文章
  • 产品
  • 下载
  • 热点新闻
  • 热门专题
  • 热门问题
  • 热门下载
  • 图片新闻
  • 洞穿行业
  • 聚焦社会
  • 品位人生
  • 市场洞察
  • 酷邮差评论
  • 人物专访
  • 邮箱网活动
2003-2010 北京国脉在线信息技术有限公司 北京国耀五洲科技有限公司 版权所有
中华人民共和国电信与信息服务业务经营许可证(京ICP证)040032号
互联网协会反垃圾邮件工作委员会成员
中国互联网协会理事单位
点击数: