应用错误收集

Hadoop map reduce - 访问丢失的数据

时间：2013-06-27 00:03:44

标签： hadoop bigdata hadoop-streaming

假设我有一个客户端脚本从hadoop中提取大量数据。 hadoop中的哪些功能使我能够查看检索到的数据并请求（指出）缺少的数据部分，以便只是为了阅读缺少的部分而发出特定请求？此功能是datanode map或reduce的一部分吗？

谢谢

1 个答案:

答案 0 :(得分：0)

没有直接的方法来实现这一目标。一旦你的脚本拉出数据并将其写入HDFS，它就是另一块数据。它与其余数据无关。您必须阅读它以及要与之比较的数据，并通过编写适合您需求的比较逻辑来自行进行比较。

首先，您可以查看MultipleInputs。

P.S。：如果您能找到适合您的产品，请与我们分享。这将是非常有价值的。非常感谢。