用于大数据集的最大熵分类器

时间:2012-06-07 14:02:54

标签: nlp machine-learning classification

我一直在寻找最大熵​​分类实现,它可以处理500个类和1000个特征的输出大小。我的训练数据大约有30,000,000行。 我尝试过使用MegaM,64位R maxent软件包,这是爱丁堡大学的最大工具,但正如预期的那样,它们都无法处理数据的大小。但是,对于这种性质的nlp任务而言,数据集的大小似乎并不太过分。 我应该采用哪些技术?或者我可以使用的工具包的任何建议? 我试图在具有8GB RAM的64位Windows机器上运行它,在需要时使用Cygwin。

1 个答案:

答案 0 :(得分:10)

Vowpal Wabbit目前被认为是最快的大型学习者。 LibLinear是另一种选择,但我不确定它是否可以处理3e10元素的矩阵。

请注意,术语“MaxEnt”几乎全部由NLP人员使用;机器学习人员将其称为逻辑回归或logit,因此如果您搜索它,您可能会找到比搜索MaxEnt时更多的工具。