Mallet vs Weka用于文本分类

时间:2011-10-31 12:49:53

标签: weka mallet

哪种产品(Mallet或Weka)更适合文本分类任务:

  1. 更容易训练
  2. 更好的结果
  3. 文档
  4. 我是这个问题的新手,所以任何评论都会很棒

2 个答案:

答案 0 :(得分:4)

MALLET更容易使用,并且大部分工作都是隐形的。你不必转换任何格式,只需给它文本文件,它就会给你回复结果。

Weka要求将文本转换为特定的格式(Weka脚本这样做的速度慢,效率低,我建议您自己编写)。

MALLET的问题是训练使用GB内存,如果你有大量的训练集,可能需要数小时。

Weka有更多的文档,但大多数都没有意义。 MALLET的文档非常少,但使用起来非常简单。

老实说,在测试了它们之后,我选择编写自己的分类器。

答案 1 :(得分:3)

我真的很享受Weka vs Mallet。也许我还不够了解,但使用GUI进行机器学习非常棒。您可以非常轻松地调整参数并运行不同的实验(将过去的实验结果保存在您面前)。我是Weka的新手,所以这是FWIW。

至于哪一个更容易训练,我觉得Weka更简单。我不知道你可以通过将Mallet指向某个文本来对你的功能空间进行什么样的控制(也许它已经足够好了),但我对Mallet的体验与Weka相当...编写脚本来获取输入正确的格式,需要注意我必须采取多个步骤才能在Mallet中使用某种序列化版本的数据。

关于你的其他问题,我现在无法真正回答这些问题,但我希望这个答案不会被低估,因为无论如何都要提供良好的信息。