如何创建分类标记语料库阅读器

时间:2016-11-10 08:35:31

标签: python-3.x nlp nltk corpus tagged-corpus

我在同一个文件夹中的cats.txt中列出了一堆文件和类别。我想为此创建一个CategorizedTaggedCorpusReaderenter image description here

这就是我的文件的外观。

在nltk中尝试了很多方法,但未能创建Categorizedtaggedcorpusreader。在我的cats.txt里面,我有文件名和分隔空格的类别名称,每个文件名可以有多个类别。

例如:

mail_1_adapter adapter 
mail_1_alert alert 
messagebody_24862499 others
etc.

你能告诉我一个更好的方法,我可以创建我的语料库并使用它。

1 个答案:

答案 0 :(得分:3)

您的文件格式没问题。您是如何尝试创建读者的?它不起作用?你没有显示你的代码,所以不知道你做错了什么。您需要告诉读者它应该从文件cats.txt中读取类别,例如像这样:

 from nltk.corpus.reader import CategorizedTaggedCorpusReader
 reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt")

您的类别文件cats.txt不是语料库的一部分,因此我使用了regexp ^[^.]*$来匹配所有不包含点的内容。如果这不能正确描述您的文件,请根据需要更改定义以包括所有语料库文件,但排除cats.txt