如何导入文本文件以适应此聚类算法?

时间:2015-11-10 16:09:13

标签: python algorithm nltk

我有900个.txt文件(所有这些都是美国总统的演讲)保存到我的U:/驱动器上的文件夹中。我希望按照此处给出的示例运行一些文档聚类:http://brandonrose.org/clustering。在他的示例中,作者使用nltk中的给定存储库。如何导入我的文本文件以正确运行此算法?

最终,我试图按照他们说话的方式对总统进行分组,因此最好有五六个总统集团以及总统所属的集团名单。

1 个答案:

答案 0 :(得分:1)

如果您可以使用glob模块获取每个文件名,然后将其内容读入字符串:

import glob

for filename in glob.glob("somefolder/*.txt"):
    with open(filename, 'r') as inputFile:
        filecontent = inputFile.read();

从现在开始,您可以使用变量filenamefilecontent来创建对象列表(很可能是词典),然后您可以按照链接的教程进行操作。