我正在进行一些群集实验,但现在我想要显示数据。就像https://cwiki.apache.org/confluence/display/MAHOUT/Visualizing+Sample+Clusters一样,有没有办法运行接受自定义集群数据的参数的类?查看群集数据的最佳方法是什么?
我使用的命令是:mvn -q exec:java -Dexec.mainClass = org.apache.mahout.clustering.display.DisplayClustering
谢谢
PS:我使用的是Mahout 0.9
答案 0 :(得分:1)
任何可以在2维中可视化的现实数据(我认为这些类不能做更多的事情)很容易适合主存。如果我没弄错的话,这些类将将所有数据加载到你的内存中,因为它们仅用于演示。
然后您也可以使用任何非Hadoop工具,例如ELKI或WEKA或SciPy。当你拥有的数据多于主内存时,Mahout真的只会得到回报。否则,它将比一个好的单主机解决方案慢很多。
参见例如this G+ post:
如果您的数据足够小以适应主内存,请不要运行Hadoop。