应用错误收集

时间：2013-12-12 16:54:27

标签： hadoop visualization cluster-analysis mahout

我正在进行一些群集实验，但现在我想要显示数据。就像https://cwiki.apache.org/confluence/display/MAHOUT/Visualizing+Sample+Clusters一样，有没有办法运行接受自定义集群数据的参数的类？查看群集数据的最佳方法是什么？

我使用的命令是：mvn -q exec：java -Dexec.mainClass = org.apache.mahout.clustering.display.DisplayClustering

谢谢

PS：我使用的是Mahout 0.9

答案 0 :(得分：1)

任何可以在2维中可视化的现实数据（我认为这些类不能做更多的事情）很容易适合主存。如果我没弄错的话，这些类将将所有数据加载到你的内存中，因为它们仅用于演示。

然后您也可以使用任何非Hadoop工具，例如ELKI或WEKA或SciPy。当你拥有的数据多于主内存时，Mahout真的只会得到回报。否则，它将比一个好的单主机解决方案慢很多。

参见例如this G+ post：

如果您的数据足够小以适应主内存，请不要运行Hadoop。