NLTK Python从本地文件夹中提取.txt文件,文件召回问题

时间:2017-06-29 19:30:25

标签: nltk

我正在编写一个关于大学考试的Python / NLTK(Windows PC)的简单程序,我坦率地说是编码领域的新东西。

我的计算机上有一个名为“评论”的文件夹,其中有50个.txt文件。 我的目标是从文件夹中提取这些文件并调用它;之后用文件创建一些列表,并将它与一些技术进行比较,例如(例如)FreqDist。

首先,我对nltk,os,PlaintextCorpusReader进行了“导入”。

import nltk
from nltk import os
from nltk.corpus import PlaintextCorpusReader

一切正常。然后我试着看到文件夹的内容。

foldercontent = PlaintextCorpusReader("C:\\Users\\Mgmura\\Desktop\\Reviews", '.*', encoding='latin1')
print(foldercontent.fileids())

此外,所有作品。输出显示文件夹中的所有50个.txt文件。所以我尝试用单个.txt文件的内容做一些事情(显示sents)。

foldercontent.sents('it_quattroruote_giulia.txt')

输出显示了一些sents,所以它工作正常。

现在存在真正的问题。如果我试图回忆一个文件,就会出现如下所示的“名称错误”。

> NameError                                 Traceback (most recent call
> last) <ipython-input-1-3dd9ed6446c9> in <module>()
> ----> 1 it_quattroruote_giulia
> 
> NameError: name 'it_quattroruote_giulia' is not defined

所以真正的问题是:如何为每个.txt文件指定一个名称并重新调用它?

提前致谢

0 个答案:

没有答案