Hadoop和Hive的基本内容

时间:2012-07-06 02:12:13

标签: hadoop hive

我最近开始使用Hadoop。我通过Hive访问了一个名为Checkout的表。以下是数据转到HDFS和其他信息的路径。那么如果我必须阅读以下三行,我能得到什么信息?

          Path                                      Size           Record Count      Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00   1.13 TB       9,294,245,800      2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00   1.13 TB       9,290,477,963      2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00   1.12 TB       9,286,199,847      2012-07-03 07:08

所以我的问题是 -

1)首先,我们正在将数据加载到HDFS,然后通过Hive我查询它以获得结果?对吗?

2)其次,当你查看上面的路径和其他事情时,我唯一困惑的是,当我将使用Hive进行查询时,我将从上面的所有三个路径获取数据?或最顶层的那个?

由于我是这些东西的新手,所以我遇到了很多问题。任何人都可以解释我蜂巢从哪里获取数据?我们将所有数据存储在HDFS中,然后我们使用Hive或Pig从HDFS获取数据?如果有人能够提供Hadoop和Hive的高级知识,那将会很棒。

1 个答案:

答案 0 :(得分:2)

我认为您需要了解Hive的本地表和Hive的外部表之间的区别。
Hive本机表意味着您将数据加载到配置单元中,并且它会关注数据如何存储在HDFS中。在这种情况下,我们通常不关心什么是目录结构。
Hive外部表意味着我们将数据放在某个目录中(如果我们暂时忘记分区)并告诉Hive - 它是表的数据。请对待就是这样。而hive使我们能够查询它,加入其他外部或常规表。我们有责任添加数据,删除数据等