如何以编程方式挖掘tweeter sql转储。

时间:2011-11-04 20:18:32

标签: java data-mining tweets

我有一个tweeter mysql转储。 我想在这个转储上构建一个分类器。 我想知道是否有可以使用的包以及我应该使用什么类型的分类器。 我想用java构建这个分类器。

2 个答案:

答案 0 :(得分:2)

我建议您使用WEKA:http://www.cs.waikato.ac.nz/ml/weka/ - WEKA包含大量数据挖掘算法和实用程序。

它有一个GUI,你可以在其中试验数据的各种配置和分类器和过滤器的组合,当你构建了一个好的模型时,你可以在你的java程序中嵌入WEKA(它也是java),并且将它与预先建立的模型一起使用来预测类,或者使用它来不断细化模型。或者在使用WEKA进行实验后,您可以在自己的应用程序中实现最终的决策树或其他任何内容,这样您就不必包含WEKA。

您可能想要使用推文的“词袋”表示,并使用多层感知器,天真贝叶斯或J48等分类器 - 所有这些都可以在WEKA中进行试验。

查看此页面:http://weka.wikispaces.com/Text+categorization+with+WEKA - 它在页面底部有一个文本分类示例。

干杯,

答案 1 :(得分:0)

http://mloss.org/software/downloads/ 这个链接有一些包。 (与机器学习有关) 这适用于可能有兴趣做同样事情的人。 因此,回答我自己的问题。 享受。