Mahout:通过命令行可视化集群

时间:2013-12-12 16:54:27

标签: hadoop visualization cluster-analysis mahout

我正在进行一些群集实验,但现在我想要显示数据。就像https://cwiki.apache.org/confluence/display/MAHOUT/Visualizing+Sample+Clusters一样,有没有办法运行接受自定义集群数据的参数的类?查看群集数据的最佳方法是什么?

我使用的命令是:mvn -q exec:java -Dexec.mainClass = org.apache.mahout.clustering.display.DisplayClustering

谢谢

PS:我使用的是Mahout 0.9

1 个答案:

答案 0 :(得分:1)

任何可以在2维中可视化的现实数据(我认为这些类不能做更多的事情)很容易适合主存。如果我没弄错的话,这些类将所有数据加载到你的内存中,因为它们仅用于演示。

然后您也可以使用任何非Hadoop工具,例如ELKI或WEKA或SciPy。当你拥有的数据多于主内存时,Mahout真的只会得到回报。否则,它将比一个好的单主机解决方案慢很多。

参见例如this G+ post

  

如果您的数据足够小以适应主内存,请不要运行Hadoop。