“学习”过滤引擎

时间:2009-12-02 13:09:57

标签: filter search-engine

是否有任何“智能”或“学习”引擎,能够识别文本中的“邪恶”短语(可能类似于学习垃圾邮件过滤器......例如在雷鸟中使用过吗?)

例如,如果我想用mailadresses过滤文本:

asdasd asd as d dgfdgfdgfdg sadasd(at)asfsdf.com

首先,该工具不会将其识别为电子邮件地址...但是如果用户“已经”(单击“文本包含mailadress” - 按钮例如)该工具多次,该文本包含类似的短语“xxxxx(at)xxxxx.xx”是可疑的,它“知道”它应该在将来自动标记这些文本......

问题:市场上有类似的东西吗?我找了一些libs(比如SpamAssasin等),但这些都是专门用于电子邮件......

2 个答案:

答案 0 :(得分:2)

您所谈论的一般想法是Bayesian filter。也许这会帮助您进行搜索。

编辑:其他一些例子:

答案 1 :(得分:1)

是的,这似乎是一个好的开始:http://nbayes.codeplex.com/(贝叶斯算法的C#实现)