标签: python nltk text-mining
我有一个文档语料库,我试图发现在语料库中出现完整而准确的句子的实例,可能使用NLTK或Python中的其他方法。
例如,假设语料库由十个文本文件组成,并且一个或多个文件包含句子:猫坐在垫子上。我如何在整个语料库中识别该句子的匹配?
我尝试的是使用非常笨重的正则表达式将文件分成每行一个句子,然后使用set查找两个文本之间的交集。这有效,但不能扩展到大型语料库。
set
有人知道在Python中使用可扩展且更强大的方法来完成此任务吗?