将数据导入Hadoop

时间:2013-08-12 14:04:51

标签: hadoop nosql bigdata bigtable

我来自很多SQL服务器,所以当它进入hadoop时,准确描述数据会发生什么变得有点困难。

我的理解是,如果你有一本大约200k左右的文本格式的书......你只需将数据复制到hadoop中就可以搜索到了。但是,这些数据是否成为块的一部分,以便HDFS可以更加优化,还是HDFS中的200k文件会损害性能?

同样是一个Block在Bigtable中通常被称为平板电脑吗?

非常感谢你的帮助。 FlyMario

1 个答案:

答案 0 :(得分:0)

小于HDFS块大小的文件(默认为64兆字节)成为块的一部分,是的。但是在某些情况下,诸如此类的小文件可能仍然会损害您的性能,例如,如果您有很多这些小文件并且在它们上运行MapReduce作业。

Vanilla Hadoop与Bigtable无关,HDFS块与平板电脑无法真正对比。虽然Hadoop的HDFS模块不了解他们持有的数据,但Bigtable平板电脑具有数据感知能力。