应用错误收集

时间：2011-01-28 13:16:43

标签： artificial-intelligence nlp spam-prevention

是否有研究/解决方案使用人工智能方法（如自然语言处理，社交智能等）预防人类输入中的垃圾邮件，语言不良等？

答案 0 :(得分：9)

有很多这样的解决方案，我将介绍几种最常用的解决方案。

Bayesian spam filtering 是基于Bayesian probability的经典方法。这是一种古老的技术，所以如果你想使用它，可以考虑使用不同类型的启发式来改善结果（详见维基百科的文章）。
语义方法，如LSA。对我来说，名为Random Indexing的LSA的修改版本给出了最佳结果，其中30％的电子邮件的培训样本得分为99.3％。还有一种称为PLSA的技术，它结合了LSA和概率理论。
<强> Support Vector Machine 即可。与以前的方法相比，这种方法对于任意数量的类都是通用的，这种技术更适合分类到2个类，例如垃圾邮件和不垃圾邮件。我自己从未尝试过，但很多论文都描述了使用SVM进行分类的高分结果。

答案 1 :(得分：1)

由于其简单性和可扩展性而受欢迎的一种方法是crowd sourcing。当它和传统的AI方法一起使用时，它们几乎可以防止任何类型的垃圾邮件。例如，Stackoverflow使用传统方法（如CAPTCHA）以及众包方法（如投票和声誉）来过滤掉垃圾。

答案 2 :(得分：1)

是的，您可以制作诈骗过滤器，但要使用人工智能。您需要训练或馈送具有良好输入的神经网络，这些输入不是骗局，输出是好的消息，以及类似的消息，其输出是骗局消息。您需要训练数千个这样的句子。最后，您已经创建了您的诈骗过滤机器人。

答案 3 :(得分：0)

您可以使用Bayesian Network，因为它可以检测邮件上的隐式模式。

答案 4 :(得分：0)

您将在ai-class.com上获得一个很好的介绍性创意。机器学习模块有一个垃圾邮件分类视频。