我是一名研究生CS学生(数据挖掘和机器学习),并且对核心Java(> 4年)有很好的了解。我已经阅读了很多关于Hadoop和Map / Reduce的内容
我现在想做一个关于这个东西的项目(在我的科西嘉的空闲时间),以便更好地理解。
任何好的项目创意都会非常感激。我只是想做这个来学习,所以我真的不介意重新发明轮子。此外,与数据挖掘/机器学习相关的任何事情都将是一个额外的奖励(符合我的研究),但绝对没有必要。
答案 0 :(得分:8)
您还没有写过任何有关您兴趣的内容。 我知道图挖掘中的算法已经在hadoop框架上实现了。该软件http://www.cs.cmu.edu/~pegasus/和论文:“PEGASUS:Peta-Scale图形挖掘系统 - 实施和观察”可以为您提供起点。
此外,此链接讨论类似于您的问题的内容:http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/但它在python中。 而且,Andrew Ng撰写了一篇非常好的论文“用于多核机器学习的Map-Reduce”。
有一个关于类似主题“大规模机器学习:并行性和大规模数据集”的NIPS 2009研讨会。您可以浏览一些论文并获得一个想法。
编辑:还有Apache Mahout http://mahout.apache.org/ - >“我们用于群集,分类和基于批处理的协同过滤的核心算法是在Apache Hadoop上使用map / reduce范例实现的”
答案 1 :(得分:2)
以及一些好的玩具项目:http://www.quora.com/Programming-Challenges-1/What-are-some-good-toy-problems-in-data-science
答案 2 :(得分:1)
为什么不通过帮助他们实施其他算法为Apache Hadoop / Mahout 做出贡献?
https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms
有许多算法标记为“开放”。据我了解,他们可以帮助实施这些?此列表中甚至还缺少数百种算法。
无论如何,既然你想用Hadoop做点什么,你为什么不问他们需要什么?而不是在一些随机网站上询问?
答案 3 :(得分:0)
尝试考虑在Hadoop上实现分层聚合聚类的有效方法是一个很好的项目。它不仅涉及算法方面,还涉及与hadoop核心框架相关的优化。