Question

我想在hadoop的不同节点中存储catagorized数据。

例如：

Node - 1 >> Animal.txt
Node - 2 >> Sports.txt
Node - 3 >> Life.txt
.
.
.
Node - n >> nnnnn.txt

有没有办法做到这一点。

**如果我的描述很薄，请抱歉。

Answer 1

有可能对数据进行分区，以便每个子集（动物，运动，生命）对同一节点是本地的，尽管您无法可靠地选择存储它们的物理节点的身份。

只要你能以编程方式将每个记录识别为一组（动物，运动，生活等等），那么你就可以实现自己的Partitioner。这类似于实现散列函数，其中具有相同散列码的所有键将由相同的缩减器减少。

[原始输入] - ＆gt; [身份映射器] - ＆gt; [您的自定义分区程序] - ＆gt; [身份减速机]

正如其他用户所提到的，HDFS默认会将输出数据复制到其他节点。因此，如果要保证数据位置，则必须在此情况下禁用复制。当然，这是以容错为代价的。

Answer 2

通过在特定节点上存储您正在击败HDFS点的文件 - 它具有冗余副本。我不认为你必须使用HDFS。您可以创建一个写入本地文件系统的reduce作业，但我不推荐它。

Answer 3

底层数据存储设施（HDFS）完全隐藏了实际存储数据的位置。所以知道这对你的应用来说是“你不应该知道这个”。

另一方面，我很好奇为什么要控制它？