应用错误收集

使用NLTK揭示语料库中的句子交叉点

时间：2017-03-12 07:25:27

标签： python nltk text-mining

我有一个文档语料库，我试图发现在语料库中出现完整而准确的句子的实例，可能使用NLTK或Python中的其他方法。

例如，假设语料库由十个文本文件组成，并且一个或多个文件包含句子：猫坐在垫子上。我如何在整个语料库中识别该句子的匹配？

我尝试的是使用非常笨重的正则表达式将文件分成每行一个句子，然后使用set查找两个文本之间的交集。这有效，但不能扩展到大型语料库。

有人知道在Python中使用可扩展且更强大的方法来完成此任务吗？

0 个答案:

没有答案