我在同一个文件夹中的cats.txt中列出了一堆文件和类别。我想为此创建一个CategorizedTaggedCorpusReader
。
这就是我的文件的外观。
在nltk中尝试了很多方法,但未能创建Categorizedtaggedcorpusreader。在我的cats.txt
里面,我有文件名和分隔空格的类别名称,每个文件名可以有多个类别。
例如:
mail_1_adapter adapter
mail_1_alert alert
messagebody_24862499 others
etc.
你能告诉我一个更好的方法,我可以创建我的语料库并使用它。
答案 0 :(得分:3)
您的文件格式没问题。您是如何尝试创建读者的?它不起作用?你没有显示你的代码,所以不知道你做错了什么。您需要告诉读者它应该从文件cats.txt
中读取类别,例如像这样:
from nltk.corpus.reader import CategorizedTaggedCorpusReader
reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt")
您的类别文件cats.txt
不是语料库的一部分,因此我使用了regexp ^[^.]*$
来匹配所有不包含点的内容。如果这不能正确描述您的文件,请根据需要更改定义以包括所有语料库文件,但排除cats.txt
。