应用错误收集

我建议您使用WEKA：http://www.cs.waikato.ac.nz/ml/weka/ - WEKA包含大量数据挖掘算法和实用程序。

它有一个GUI，你可以在其中试验数据的各种配置和分类器和过滤器的组合，当你构建了一个好的模型时，你可以在你的java程序中嵌入WEKA（它也是java），并且将它与预先建立的模型一起使用来预测类，或者使用它来不断细化模型。或者在使用WEKA进行实验后，您可以在自己的应用程序中实现最终的决策树或其他任何内容，这样您就不必包含WEKA。

您可能想要使用推文的“词袋”表示，并使用多层感知器，天真贝叶斯或J48等分类器 - 所有这些都可以在WEKA中进行试验。

查看此页面：http://weka.wikispaces.com/Text+categorization+with+WEKA - 它在页面底部有一个文本分类示例。

干杯，

http://mloss.org/software/downloads/ 这个链接有一些包。（与机器学习有关）这适用于可能有兴趣做同样事情的人。因此，回答我自己的问题。享受。

如何以编程方式挖掘tweeter sql转储。

2 个答案: