hdfs和hive是如何相关的?

时间:2017-01-11 14:42:25

标签: hadoop hive

我有psudeo分布式hadoop环境,并使用sqoop和hive进行数据导入和分析。

我使用sqoop将数据从mysql导入到hive并且工作正常,我在hive位置获取数据/user/hive/warehouse/,我可以在hive表中查看数据。

我的怀疑是:

    当我从mysql导入hive(在hadoop之上构建)时,
  1. 将数据存储在hadoop中吗?
  2. 为什么它在我的hdfs中创建/user/hive/warehouse
  3. hive如何在数据之上工作?
  4. 如果我在mysql中更新数据,我可以使用sqoop增量导入在hdfs中更新相同但是如果我直接使用hive导入它会反映在hive表中但不是在hdfs中,我的理解是否正确?
  5. 使用sqoop和hdfs概念执行数据摄取时,我感到很困惑

    有人可以帮我吗?

1 个答案:

答案 0 :(得分:1)

答案

1-数据仅存储在HDFS中。

2- hive-default.xml值下的属性“hive.metastore.warehouse.dir”告诉数据将被存储的位置默认值为“/ user / hive / warehouse”

3-用户查询在MapReduse作业more detail

上转换

4-您可以使用SQOOP进行增量数据加载,所有数据都将存储在HDFS上,如果您创建了表格,则会反映出来。