从Flat文件或现有数据库将数据加载到Hive中

时间:2013-09-26 12:56:01

标签: hadoop hive business-objects

我们正在组织中设置Hadoop和Hive。 我们还将获得数据生成器工具创建的示例数据。数据约为1 TB。 我的问题是 - 我必须将数据加载到Hive和Hadoop中。我需要遵循的流程是什么?

此外,我们将安装HBase与Hadoop。 我们需要在SQL Server中创建相同的数据库设计。但是使用Hive。 Cz将这些数据加载到配置单元后,我们希望使用Business Objects 4.1作为前端来创建Reports。 该挑战是将样本数据加载到Hive中。 请帮助我,因为我们想尽快做所有的事情。

2 个答案:

答案 0 :(得分:1)

  • 首先在HDFS中提取您的数据
  • 使用Hive外部表,指向您摄取数据的位置,即您的hdfs目录。
  • 您已准备好查询在Hive中创建的表中的数据。
  • 祝你好运。

答案 1 :(得分:0)

对于第一种情况,您需要将数据放入hdfs。

  1. 将您的数据文件传输到客户端节点(应用程序节点)
  2. 将您的文件分发到文件系统(hdfs dfs -put ...)
  3. 创建一个外部表,指向您上载这些文件的hdfs目录。您的数据是某种方式的结构。例如,用分号符号分隔。
  4. 现在,您可以使用sql查询操作数据。
  5. 对于第二种情况,您可以创建另一个hive表(使用HBaseStorageHandler,https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration)并使用Insert语句从第一个表加载。

    我希望这可以帮到你。