nltk将类型添加到语料库中的文件

时间:2013-02-25 00:52:11

标签: nltk

我有一堆纯文本文件要分类为A类或B类。

对于培训,我考虑将类型添加为A类或B类到每个文件,并尝试识别一些预测文件类型的功能。 我可以创建一个纯文本语料库,但有没有办法在创建语料库时添加文件的类型?。

1 个答案:

答案 0 :(得分:1)

我建议使用NLTK CategorizedPlaintextCorpusReader。文本文件必须根据其类别/类型进行命名,您必须将正则表达式传递给构造函数,该构造函数告诉NLTK哪个文件属于哪个类别。

文档说明:

  

用于查找每个文件标识符的类别的正则表达式模式。该模式将应用于每个文件标识符,第一个匹配组将用作该文件的类别标签。

您还可以将包含fileids映射的字典或文本文件传递给类别名称,而不是模式。请注意,每个文本文件可以属于多个类别。

有关代码示例,请参阅this blog entry