标签: hadoop hbase hdfs talend
大家好嗨
我是bigdata的新手,我安装了HDFS + Hbase测试数据库,并使用Talend Big Data(ETL)进行测试。
我想知道:如果我直接将文件放在HDFS中,而不通过hbase,我永远不会要求这些数据?我的意思是,如果我想过滤我想要选择的数据,我必须阅读整个文件,是吗?
非常感谢您的帮助!
答案 0 :(得分:0)
HDFS只是一个分布式文件系统,如果不经过中间组件,则无法查询文件。 Hbase是一个nosql数据库,可以将数据保存在HDFS上,当您需要随机访问数据时使用它。
如果要将文件按原样存储在HDFS上并进行查询,可以使用Hive在其上创建外部表。
答案 1 :(得分:0)
最好的选择是在HDFS上的文件顶部使用配置单元。您可以在配置单元中使用存储分区和分区来提高性能。