我正在规划数据处理管道。我的情况是:
如果HDFS上的数据完全冗余,由于我的使用场景的IO原因,这将是一个问题。
答案 0 :(得分:1)
您可以使用Hadoop(Map Reduce + HDFS)来解决您的问题。
conf / hdfs-site.xml - 在主机和所有从机上
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
HDFS不必复制每个节点上的数据。更多info。