Hadoop机器学习/数据挖掘项目的想法?

时间:2011-02-04 03:51:22

标签: hadoop machine-learning data-mining

我是一名研究生CS学生(数据挖掘和机器学习),并且对核心Java(> 4年)有很好的了解。我已经阅读了很多关于Hadoop和Map / Reduce的内容

我现在想做一个关于这个东西的项目(在我的科西嘉的空闲时间),以便更好地理解。

任何好的项目创意都会非常感激。我只是想做这个来学习,所以我真的不介意重新发明轮子。此外,与数据挖掘/机器学习相关的任何事情都将是一个额外的奖励(符合我的研究),但绝对没有必要。

4 个答案:

答案 0 :(得分:8)

您还没有写过任何有关您兴趣的内容。 我知道图挖掘中的算法已经在hadoop框架上实现了。该软件http://www.cs.cmu.edu/~pegasus/和论文:“PEGASUS:Peta-Scale图形挖掘系统 - 实施和观察”可以为您提供起点。

此外,此链接讨论类似于您的问题的内容:http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/但它在python中。 而且,Andrew Ng撰写了一篇非常好的论文“用于多核机器学习的Map-Reduce”。

有一个关于类似主题“大规模机器学习:并行性和大规模数据集”的NIPS 2009研讨会。您可以浏览一些论文并获得一个想法。

编辑:还有Apache Mahout http://mahout.apache.org/ - >“我们用于群集,分类和基于批处理的协同过滤的核心算法是在Apache Hadoop上使用map / reduce范例实现的”

答案 1 :(得分:2)

答案 2 :(得分:1)

为什么不通过帮助他们实施其他算法为Apache Hadoop / Mahout 做出贡献?

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms

有许多算法标记为“开放”。据我了解,他们可以帮助实施这些?此列表中甚至还缺少数百种算法。

无论如何,既然你想用Hadoop做点什么,你为什么不问他们需要什么?而不是在一些随机网站上询问?

答案 3 :(得分:0)

尝试考虑在Hadoop上实现分层聚合聚类的有效方法是一个很好的项目。它不仅涉及算法方面,还涉及与hadoop核心框架相关的优化。