假设我有一个客户端脚本从hadoop中提取大量数据。 hadoop中的哪些功能使我能够查看检索到的数据并请求(指出)缺少的数据部分,以便只是为了阅读缺少的部分而发出特定请求? 此功能是datanode map或reduce的一部分吗?
谢谢
答案 0 :(得分:0)
没有直接的方法来实现这一目标。一旦你的脚本拉出数据并将其写入HDFS,它就是另一块数据。它与其余数据无关。您必须阅读它以及要与之比较的数据,并通过编写适合您需求的比较逻辑来自行进行比较。
首先,您可以查看MultipleInputs。
P.S。 :如果您能找到适合您的产品,请与我们分享。这将是非常有价值的。非常感谢。