Hdfs和Hbase:它是如何工作的?

时间:2016-06-01 09:04:04

标签: hadoop hbase hdfs talend

大家好嗨

我是bigdata的新手,我安装了HDFS + Hbase测试数据库,并使用Talend Big Data(ETL)进行测试。

我想知道:如果我直接将文件放在HDFS中,而不通过hbase,我永远不会要求这些数据?我的意思是,如果我想过滤我想要选择的数据,我必须阅读整个文件,是吗?

非常感谢您的帮助!

2 个答案:

答案 0 :(得分:0)

HDFS只是一个分布式文件系统,如果不经过中间组件,则无法查询文件。 Hbase是一个nosql数据库,可以将数据保存在HDFS上,当您需要随机访问数据时使用它。

如果要将文件按原样存储在HDFS上并进行查询,可以使用Hive在其上创建外部表。

答案 1 :(得分:0)

最好的选择是在HDFS上的文件顶部使用配置单元。您可以在配置单元中使用存储分区和分区来提高性能。