1. 什么是 Chinese_rules.cf
Chinese_rules.cf是用于业界广泛使用的免费垃圾邮件过滤系统SpamAssassin的中文垃圾邮件过滤规则集。由于以前没有中文的过滤规则集,SpamAssassin对中文邮件过滤的准确性不高。CCERT反垃圾邮件研究小组利用CCERT所掌握的最新和丰富的样本数据,推出了第一个基于SpamAssassin的中文垃圾邮件过滤规则集Chinese_rules.cf。该规则集每周更新一次,时效性非常好。
Chinese_rules.cf是在SpamAssassin 官方网站上发布的第一个中文垃圾邮件过滤规则集,也是用Google,Yahoo,百度,MSN搜索“中文垃圾邮件过滤”时所返回的第一条结果。
2. Chinese_rules.cf的理论背景
Chinese_rules.cf是邮件内容过滤规则集。目前邮件内容过滤技术可以分为两种方法:基于规则和基于统计的方法。基于规则的方法就是在邮件内容中寻找特定的模式,例如主题包含“免费”。基于统计的就是使用统计方法解决邮件的二元分类问题,其中分类机跟据垃圾邮件和正常邮件的样本训练出来。在垃圾邮件过滤技术中最常用的统计方法就是贝叶斯准则。
基于规则方法的优点是规则可以共享,因此它的推广性很强。一个人写出的规则可以提供给多个人,多个服务器使用。然而它的缺点就是更新速度慢。因为规则一般都是人工编写生成,所以新规则的产生速度跟不上新垃圾邮件出现的速度,换句话说,它的时效性较差。
基于统计的方法的优点就是分类机由程序自动训练出来,只要及时更新样本训练集就可以使分类机更新的速度跟得上垃圾邮件出现的速度,即它的时效性很强。然而该方法的缺点就是分类机不能共享,某个用户用自己的邮件样本集训练出来的分类机对其他用户可能效果不佳,因此该方法的推广性较差。
Chinese_rules.cf使用基于统计规则的新方法,即它所使用的规则是由统计方法自动生成的。该方法吸取了基于规则和基于统计的优点:因为它是一种基于规则的方法,因此推广性很强,又因为它的规则是由统计方法自动生成的,因此它的时效性也很强。Chinese_rules.cf和传统方法比较如表1所示。
表1、Chinese_rules.cf和传统方法比较
推广性时效性
基于规则好差
基于统计差好
Chinese_rules.cf好好
CCERT反垃圾邮件组自从1998年成立以来,每天都处理大量的垃圾邮件投诉,掌握最新和最丰富的样本数据。Chinese_rules.cf就在此最新和最丰富的样本数据库的基础上,通过统计方法自动产生的。
3. Chinese_rules.cf的生成和使用框架
Chinese_rules.cf的生成和使用框架如图1所示。首先,利用CCERT垃圾邮件处理服务和用户反馈信息来维护一个最新,最全的垃圾/正常邮件样本库,再利用统计方法,根据垃圾/正常邮件样本库自动生成规则集Chinese_rules.cf。因为样本库是最新的,Chinse_rules.cf的时效性就非常强。CCERT把该规则集在CCERT主页上发布,作为CCERT提供的一种对外服务。各地用户(
- 综合
- 文章
- 产品
- 下载
- 热点新闻
- 热门专题
- 热门问题
- 热门下载
- 图片新闻
- 洞穿行业
- 聚焦社会
- 品位人生
- 市场洞察
- 酷邮差评论
- 人物专访
- 邮箱网活动