我计划在基于Web的应用程序中实现Hadoop框架。但我只是在localhost中托管它。我计划将mapreduce和hdfs实现为分布式文件系统。问题是,我必须做的第一步是什么?我该怎么做?我已经对Hadoop框架进行了彻底的研究。关于它是如何工作的,并尝试从互联网上的wordcount示例。
答案 0 :(得分:0)
Hadoop是一个用于大规模数据处理的分布式框架。你的陈述 “我计划将mapreduce和hdfs实现为分布式文件系统。”是错误的。
Map reduce是一种可以在分布式文件系统上使用的编程模型。 HDFS是hadoop分布式文件系统。 HDO和MapReduce一起在hadoop框架中设置。
使用hadoop,您可以脱机进行数据处理,即批处理。因此,它可能无法直接在Web应用程序中使用。您可以做的是,将您的后端数据库作为Web应用程序的HBase。 Hbase是一个在hadoop之上运行的数据仓库/数据库。
如果您想开始,第一步是设置一组机器。可以从5个节点开始。否则我会推荐云解决方案。转到Amazon EMR。
请告诉我这是否有帮助!