Question

许多人厌倦了没有价值的突兀话语，如：

f **国王
ID | OT
＆LT; |＆GT;
whaaaat ???? !!!! ???

我计划检测可疑记录，然后手动验证它们。换句话说，找到检测到某些东西最可能是突兀的规则。有没有合理的解决方案？我正在考虑这些REGEX规则：

\w\W+\w
\D{3,}

值得努力吗？

Answer 1

我会使用贝叶斯过滤功能拼写错误拼写，这些拼写错误是alpha和其他字符的组合（例如，您提供的所有示例）。这具有明显的好处，即它会随着时间的推移而“学习”，但需要先获得初始训练集，然后才能产生有用的结果。为了满足您的需求，您可以设置匹配低的阈值，这样您就会得到必须允许的误报（并且希望算法不会允许通过太多的误报）。

Toby Segaran的 Programming Collective Intelligence 为完成这项工作提供了很好的解释和Python代码。

如何检测突兀的文字？

1 个答案: