我正在尝试学习HDInsight和Hadoop。
在HDFS中附加到文件而不是将额外数据文件复制到HDFS中的同一数据文件夹有什么好处?
更清楚的是,从我的单节点机器,我将我的数据文件上传到HDFS。现在,如果我需要向此文件添加额外数据,我可以使用“追加”方法,对吧?或者我可以在同一个输入文件夹下将新的额外文件发送到HDFS吗?这样它就会有多个文件作为输入文件。
将额外数据附加到HDFS文件是否有任何不利之处?据我所知,由于数据块是64 MB或128 MB,我只需要一个额外的数据块吗?
假设我的第一个输入文件是75 MB,我将有两个数据块64 MB和11 MB,如果我添加新文件(75 MB)而不添加,那么我将有4个大小的块: 64 MB,11 MB,64 MB和11 MB。如果我使用append方法,那么我将有3个大小的块:64 MB,64 MB和22 MB。
我理解正确吗?另一个数据块的缺点是非常大的问题吗?