我正在为Android开发垃圾邮件检测应用程序,我使用贝叶斯分类来检测垃圾邮件。我想知道的是,我是否应该使用50条火腿信息和50条垃圾邮件的训练集,或者我是否应该进行基于用户的内容培训?它对应用程序的有效性有何影响?我知道这可能是一个广泛的讨论,但我想要一个确切的答案,而不是在这里讨论。
答案 0 :(得分:1)
您似乎需要成千上万的培训信息。
请注意,垃圾邮件发送者已经发现了通过此类过滤器的方法,例如:像#" v1agra"这样的拼写错误。对分类器的迭代改进可能会赶上他们当前的技术。
Bayesian_spam_filtering看起来是个好地方,尤其是。它引用了深入的文章。