我计划开发一个预测特定文本情绪的系统(简短的情绪分析)。
我也更喜欢apache mahout,因为它是非常庞大的数据,系统应该是可扩展的实时。请建议我使用apache mahout提供的算法,这将适用于情绪分析。
答案 0 :(得分:3)
如果您已经标记了训练数据,那么您可以尝试Naive Bayes classifier,这是最简单的监督学习算法之一(并由Mahout支持)。如果由于某种原因这还不够,那么你可以尝试更多涉及的算法,如逻辑回归等。
如果您没有标签数据,那么您就不走运了 - 您需要获得一些工作(例如,雇用某人通过Amazon's Mechanical Turk为您标记数据)
顺便问一下,我们谈论的数据大小是多少? (如果它高达几百千兆字节,那么你不需要hadoop / mahout来训练这种类型的模型 - 除非你当然已经将数据放在hadoop中了......)