什么顽皮的单词列表有利于打击垃圾邮件?

时间:2012-03-09 22:07:16

标签: spam

我有一个相当简单的垃圾邮件过滤机制,它使用了一些可能来自垃圾邮件的顽皮单词列表(我将这些用于发布内容以及用户个人资料字段等​​)。

我目前有:

 array ('shop','bags','shoes','shag','watches','sales','health','insurance','trader','wedding','casino','hack','ps3','cheap','episode','accessories','movie','nobod.info')

您使用的是什么列表?我一直在添加/更改单词,所以查看其他列表可能会有很大的帮助!

1 个答案:

答案 0 :(得分:3)

将这样的单词列入黑名单将无法有效运作。机器学习技术在这里非常有用。也就是说,查看明确标记为垃圾邮件的邮件,让计算机了解垃圾邮件的真实情况。这就是gmail等邮件网站用来对抗垃圾邮件的行为。这是一项很多工作,但是一种非常可靠的打击垃圾邮件的方式(你最后一次在gmail收件箱中看到垃圾邮件是什么时候?)

将这些单词列入黑名单也会产生非常高的误报率,这会非常烦人。