关于Hadoop和Hive和Presto的问题

时间:2014-01-24 07:48:40

标签: hadoop hive presto

我正在研究在Hadoop集群上使用Hive,然后使用Presto对存储在Hadoop中的数据进行一些分析,但我仍然对某些事情感到困惑:

  • 文件存储在Hadoop(某种文件管理器)中
  • Hive需要表来存储来自Hadoop的数据(数据管理器)
    • Hadoop和Hive都将它们的数据分开存储,还是Hive只使用Hadoop中的文件? (在硬盘空间等方面?) - >那么,Hive会从表中的Hadoop导入数据并单独留下Hadoop,或者我该如何看待它?
  • 可以在没有Hive的情况下使用Presto直接在Hadoop上使用吗?

提前感谢您回答我的问题:)

1 个答案:

答案 0 :(得分:2)

首先要做的事情是:文件存储在Hadoop分布式文件系统( HDFS )中。这就是你所说的数据管理器吗?

实际上,Hive可以同时使用HDFS中的“常规”文件或表格,这些文件又是“常规”文件,其他元数据存储在特殊数据存储区中(称为仓库)。

关于Presto - 它内置了对Hive Metastore的支持,但您也可以为任何数据源编写自己的连接器插件

请阅读有关Hive连接器配置here以及连接器插件here的更多信息。