应用错误收集

时间：2015-07-12 11:40:24

标签： text input attributes classification mallet

我是使用Mallet的新手。我通常使用WEKA进行分类，现在我正在尝试使用Mallet进行文本分类。在Weka中，我们自己选择并生成.arff文件的属性（例如字长或前n个单词出现）。

我已经在http://mallet.cs.umass.edu/import.php中看到了Mallet的输入格式，但我仍然感到困惑。我们如何在输入格式中分配属性？我们怎么告诉这个文件属于某个类？例如，文档属于“体育”类？

非常感谢输入格式文件的任何示例。

谢谢！

答案 0 :(得分：4)

- 我们怎么告诉这个文件属于某个类？：

每个类可以有一个文件夹，例如： C：/语料库/ 1类 C：/语料库/ Class2中 C：/语料库/ Classn 每个文件夹都包含属于该类的文档。

我们如何以输入格式分配属性？

如果您想了解文件导入的选项，请转到： C：/槌/箱一旦你在那里： mallet import-dir --help 并将显示导入文件的选项，例如--remove-stopwords，--gram sizes。

导入文件的示例代码：

bin / mallet import-dir --input C：/ Corpus / * --output corpus.mallet --gram sizes 1,2 --preserve-case