查找多个文件中彼此相关的短语

时间:2016-11-12 01:25:45

标签: python

我在尝试解决此问题时遇到问题,有一个包含6000个文本文件的文件夹。我需要的是找到在所有这些文件中重复的短语并将其包含在报告中。这个问题超出了常规 grep -Hl <phrase> Folder/*.txt 问题是我不知道要捕获的短语,应该扫描所有文档并获得5个单词段,并查看其余文档以找到匹配项。

如果有一种方法可以使用python实现这一点,我很满意。我考虑过 NTLK 机器学习,但需要更多详细信息。

1 个答案:

答案 0 :(得分:0)

查看n-gram方法。您可以解析文件中的“五克”段。

Here是如何使用n-gram在文本中查找模式的一个很好的例子。您需要决定搜索所有文本文件的方法。如果它们足够小,你可以将它们组合起来,或者将它们读成字符串,然后从那里解析。

Another使用n-gram的方法。