我是Hadoop的新手,我正在学习一些基础教程。 我正在遵循的教程之一要我用Python编写Hadoop MapReduce作业我已经成功完成了所有工作,这些是总结的步骤:
我的问题是:如果我必须经常修改我的数据然后运行MapReduce作业怎么办?我是否每次都在hdfs上加载修改后的数据,或者有没有办法在hdfs上直接修改? 谢谢
答案 0 :(得分:0)
每次修改数据时都必须将其上传到HDFS。另一种选择是使用HBASE,它允许附加/更新现有数据。
答案 1 :(得分:0)
这听起来不像是对Hadoop的明智使用。 Hadoop用于分析相对静态数据的地方,即不更改数据的地方。它基本上适用于一次写入,阅读许多原则。无需更改创建,写入和关闭的文件。他们的理念背后有一个强有力的理由,即简化数据一致性问题并实现高吞吐量数据访问。
回到您的实际问题,是的,您需要在每次更改时上传数据。但为什么你会如此频繁地更改数据呢?只需继续将较新的数据存储到HDFS中。 Afterall Hadoop旨在处理BIGdata。