应用错误收集

时间：2011-02-04 03:51:22

标签： hadoop machine-learning data-mining

我是一名研究生CS学生（数据挖掘和机器学习），并且对核心Java（> 4年）有很好的了解。我已经阅读了很多关于Hadoop和Map / Reduce的内容

我现在想做一个关于这个东西的项目（在我的科西嘉的空闲时间），以便更好地理解。

任何好的项目创意都会非常感激。我只是想做这个来学习，所以我真的不介意重新发明轮子。此外，与数据挖掘/机器学习相关的任何事情都将是一个额外的奖励（符合我的研究），但绝对没有必要。

答案 0 :(得分：8)

您还没有写过任何有关您兴趣的内容。我知道图挖掘中的算法已经在hadoop框架上实现了。该软件http://www.cs.cmu.edu/~pegasus/和论文：“PEGASUS：Peta-Scale图形挖掘系统 - 实施和观察”可以为您提供起点。

此外，此链接讨论类似于您的问题的内容：http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/但它在python中。而且，Andrew Ng撰写了一篇非常好的论文“用于多核机器学习的Map-Reduce”。

有一个关于类似主题“大规模机器学习：并行性和大规模数据集”的NIPS 2009研讨会。您可以浏览一些论文并获得一个想法。

编辑：还有Apache Mahout http://mahout.apache.org/ - ＆gt;“我们用于群集，分类和基于批处理的协同过滤的核心算法是在Apache Hadoop上使用map / reduce范例实现的”

答案 1 :(得分：2)

答案 2 :(得分：1)

为什么不通过帮助他们实施其他算法为Apache Hadoop / Mahout 做出贡献？

有许多算法标记为“开放”。据我了解，他们可以帮助实施这些？此列表中甚至还缺少数百种算法。

无论如何，既然你想用Hadoop做点什么，你为什么不问他们需要什么？而不是在一些随机网站上询问？

答案 3 :(得分：0)

尝试考虑在Hadoop上实现分层聚合聚类的有效方法是一个很好的项目。它不仅涉及算法方面，还涉及与hadoop核心框架相关的优化。