如何检测突兀的文字?

时间:2010-10-20 16:29:34

标签: regex

许多人厌倦了没有价值的突兀话语,如:

  • f **国王
  • ID | OT
  • < |>
  • whaaaat ???? !!!! ???

我计划检测可疑记录,然后手动验证它们。换句话说,找到检测到某些东西最可能是突兀的规则。有没有合理的解决方案?我正在考虑这些REGEX规则:

\w\W+\w
\D{3,}

值得努力吗?

1 个答案:

答案 0 :(得分:1)

我会使用贝叶斯过滤功能拼写错误拼写,这些拼写错误是alpha和其他字符的组合(例如,您提供的所有示例)。这具有明显的好处,即它会随着时间的推移而“学习”,但需要先获得初始训练集,然后才能产生有用的结果。为了满足您的需求,您可以设置匹配低的阈值,这样您就会得到必须允许的误报(并且希望算法不会允许通过太多的误报)。

Toby Segaran的 Programming Collective Intelligence 为完成这项工作提供了很好的解释和Python代码。