我正在开展一个项目,我需要创建一个垃圾邮件数据库并接受用户提交的内容。接受提交很容易,但我试图弄清楚如何对这些提交进行加权。
假设数据库由单词组成,我得到以下提交内容: * 137x“香蕉” * 22x“apple” * 1x“爆炸鼠标”
现在,“香蕉”很可能是一个垃圾邮件。 “苹果”可能是,但应该被列入灰名单,而“爆炸鼠标”可能只是一个恶作剧。
有人有什么好主意吗?
干杯!
答案 0 :(得分:0)
标准方法是“贝叶斯”,您可以将垃圾邮件中的单词频率与非垃圾邮件中的单词频率(又名“ham”)进行比较。问题是,虽然人们非常愿意将所有垃圾邮件转发给你,但他们不太可能想把你的火腿转发给你。
一个已经执行此操作的程序称为“bogofilter”。有一个标准的Debian软件包。