检查文字是否是句子?

时间:2017-07-10 06:03:39

标签: python

所以我有一个刮刀可以获得文章。但是,它并不总是正常工作。我想更好地检查它什么时候不起作用。例如,以下是我想要刮掉的东西:

  

您好。这是一系列句子。他们不必遵循这种确切的格式,但非常接近这一点会很好!基本上这样的东西与偶尔奇怪的格式组合在一起,这取决于被刮的内容。

但我可能也会得到一些显然不是文字的东西:

  

注册|登录|注销|登录您的帐户忘记密码? {* #signInForm *} ....

是否有任何python库可以检查字符串的一般格式?基本上,我正在抓文章,想看看文章是否是文章y。如果没有python库,最好的方法是进行某种正则表达式匹配吗?这可能做得合理吗?

任何帮助将不胜感激,谢谢!

[edit] 如果你投票结束,你介意留下评论原因吗?原因是:NLP没有堆栈交换。因此,我可以在哪里问这个问题?谢谢。

1 个答案:

答案 0 :(得分:1)

有很多方法可以做到这一点,并且没有看到更多的数据预测正确的方法将是困难的。

也就是说,这是一个简单的策略:将文本分成单词并检查它是否在统计上看起来像写作而不是样板文件。例如,对于任何足够长的写作,在英语中,大约5%的标记应该是单词the。对于简短的文本,这不太可靠,但根据上面的示例,我们可以按照以下几行进行非常简单的检查(“a|an|the构成超过1%的令牌?”)可能会有效。

对于更复杂的方法,您可以查看样板清除库here列表。