我打算做一个 MapReduce项目,涉及 Hadoop 库,并对在 AWS 上传的大数据进行测试。我还没有最终确定一个想法。但我相信它会涉及某种数据处理, MapReduce设计模式以及可能图形算法,Hive和PigLatin 。如果有人能给我一些想法,我真的很感激。我记得很少。
最后,我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用 Weka 进行数据挖掘(使用Trees)。
但我不确定这是否是我现在唯一可以使用的东西(使用Weka)。有没有其他方法可以处理大数据并得出大数据集的结论?
此外,我如何参与其中的图表?
基本上我想做一个研究项目,但我不确定究竟应该做些什么以及它应该是什么样的?有什么想法吗 ?暗示性的链接/想法?知识共享?
答案 0 :(得分:1)
我建议你检查Apache Mahout,它是一个可扩展的机器学习和数据挖掘框架,应该与Hadoop很好地集成。
Hive为您提供类似SQL的语言来查询大数据,实质上它将您的高级查询转换为MapReduce作业并在数据集群上运行它。
另一个建议是考虑使用R做你的数据处理算法,它是一个统计软件(类似于matlab),我建议使用R Revolution代替标准R环境,这是一个环境开发R,但有大量强大的数据和集群工具。
编辑:如果您是学生,R Revolution有免费的学术版。
编辑第三个建议是查看GridGain这是Java中另一个相对容易在群集上运行的Map / Reduce实现。
答案 1 :(得分:0)
由于您已经在使用MapRedude和Hadoop,您可以使用Mahout从数据中提取一些知识,或者您可以从这本非常好的书中获得一些想法:
http://infolab.stanford.edu/~ullman/mmds.html
本书提供了挖掘社交网络图表的想法,并以其他几种方式处理图表。
希望它有所帮助!