"克隆" NLTK中的语料库?

时间:2012-06-04 00:09:12

标签: python nlp nltk corpus

我正在尝试在NLTK中创建自己的语料库。我一直在阅读这方面的一些文档,它看起来相当复杂......我想要做的就是“克隆”电影评论语料库但是用我自己的文本。现在,我知道我可以将移动评论语料库中的文件更改为我自己的...但这限制了我一次只使用一个这样的语料库(即,我必须不断地交换文件)。有什么方法可以克隆电影评论语料库吗?

感谢 亚历

2 个答案:

答案 0 :(得分:1)

使用CategorizedPlaintextCorpusReader课程阅读电影评论。直接使用它来加载您的语料库。以下内容适用于电影语料库的精确副本:

mr = CategorizedPlaintextCorpusReader(path_to_your_reviews, r'(?!\.).*\.txt',
        cat_pattern=r'(neg|pos)/.*')

cat_pattern中的所有匹配是类别:在这种情况下,negpos。如果您的语料库具有不同的类别(例如,电影类型而不是正/负评估),请更改目录结构并调整cat_pattern参数以进行匹配。

PS。对于具有不同结构的分类语料库,nltk提供了丰富的方法来指定类别;阅读CategorizedPlaintextCorpusReader

的文档

答案 1 :(得分:0)

为什么不通过复制movie_reviewsnltk.corpus的定义来定义新的语料库?您可以使用新目录执行此操作,然后复制目录结构并替换文件。