Python NLTK分类语料库创建

时间:2013-04-03 22:22:14

标签: python nltk

我目前在尝试创建我的语料库时遇到一些涉及在所有子文件夹中包含文件的愚蠢问题。

CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',')

我的问题是我的所有文本文件都不在一个文件夹中。它们都在子文件夹中。如何在此目录和所有子目录中包含所有文本文件?如果我拥有“TextForAnalysis”文件夹中的所有文件,那么一切都只是文件。

1 个答案:

答案 0 :(得分:1)

尝试使用cat_pattern选项:

CorpusList = CategorizedPlaintextCorpusReader(
    'X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\',
    r'.*/.txt',
    cat_file='CAT.txt',
    cat_delimiter=',',
    cat_pattern='(.+)/*')