使用NLTK揭示语料库中的句子交叉点

时间:2017-03-12 07:25:27

标签: python nltk text-mining

我有一个文档语料库,我试图发现在语料库中出现完整而准确的句子的实例,可能使用NLTK或Python中的其他方法。

例如,假设语料库由十个文本文件组成,并且一个或多个文件包含句子:猫坐在垫子上。我如何在整个语料库中识别该句子的匹配?

我尝试的是使用非常笨重的正则表达式将文件分成每行一个句子,然后使用set查找两个文本之间的交集。这有效,但不能扩展到大型语料库。

有人知道在Python中使用可扩展且更强大的方法来完成此任务吗?

0 个答案:

没有答案