使用MALLET进行文本分类

时间:2015-07-12 11:40:24

标签: text input attributes classification mallet

我是使用Mallet的新手。我通常使用WEKA进行分类,现在我正在尝试使用Mallet进行文本分类。在Weka中,我们自己选择并生成.arff文件的属性(例如字长或前n个单词出现)。

我已经在http://mallet.cs.umass.edu/import.php中看到了Mallet的输入格式,但我仍然感到困惑。我们如何在输入格式中分配属性?我们怎么告诉这个文件属于某个类?例如,文档属于“体育”类?

非常感谢输入格式文件的任何示例。

谢谢!

1 个答案:

答案 0 :(得分:4)

- 我们怎么告诉这个文件属于某个类?:

每个类可以有一个文件夹,例如: C:/语料库/ 1类 C:/语料库/ Class2中 C:/语料库/ Classn 每个文件夹都包含属于该类的文档。

我们如何以输入格式分配属性?

如果您想了解文件导入的选项,请转到: C:/槌/箱 一旦你在那里: mallet import-dir --help 并将显示导入文件的选项,例如--remove-stopwords,--gram sizes。

导入文件的示例代码:

bin / mallet import-dir --input C:/ Corpus / * --output corpus.mallet --gram sizes 1,2 --preserve-case