Question

我在同一个文件夹中的cats.txt中列出了一堆文件和类别。我想为此创建一个CategorizedTaggedCorpusReader。

这就是我的文件的外观。

在nltk中尝试了很多方法，但未能创建Categorizedtaggedcorpusreader。在我的cats.txt里面，我有文件名和分隔空格的类别名称，每个文件名可以有多个类别。

例如：

mail_1_adapter adapter 
mail_1_alert alert 
messagebody_24862499 others
etc.

你能告诉我一个更好的方法，我可以创建我的语料库并使用它。

Answer 1

您的文件格式没问题。您是如何尝试创建读者的？它不起作用？你没有显示你的代码，所以不知道你做错了什么。您需要告诉读者它应该从文件cats.txt中读取类别，例如像这样：

 from nltk.corpus.reader import CategorizedTaggedCorpusReader
 reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt")

您的类别文件cats.txt不是语料库的一部分，因此我使用了regexp ^[^.]*$来匹配所有不包含点的内容。如果这不能正确描述您的文件，请根据需要更改定义以包括所有语料库文件，但排除cats.txt。