应用错误收集

时间：2014-05-02 13:03:43

标签： hadoop hdfs

我是Hadoop的新手，我正在学习一些基础教程。我正在遵循的教程之一要我用Python编写Hadoop MapReduce作业我已经成功完成了所有工作，这些是总结的步骤：

我的问题是：如果我必须经常修改我的数据然后运行MapReduce作业怎么办？我是否每次都在hdfs上加载修改后的数据，或者有没有办法在hdfs上直接修改？谢谢

答案 0 :(得分：0)

每次修改数据时都必须将其上传到HDFS。另一种选择是使用HBASE，它允许附加/更新现有数据。

答案 1 :(得分：0)

这听起来不像是对Hadoop的明智使用。 Hadoop用于分析相对静态数据的地方，即不更改数据的地方。它基本上适用于一次写入，阅读许多原则。无需更改创建，写入和关闭的文件。他们的理念背后有一个强有力的理由，即简化数据一致性问题并实现高吞吐量数据访问。

回到您的实际问题，是的，您需要在每次更改时上传数据。但为什么你会如此频繁地更改数据呢？只需继续将较新的数据存储到HDFS中。 Afterall Hadoop旨在处理BIGdata。