从多个映射器加载配置单元表

时间:2015-09-22 04:49:01

标签: hadoop mapreduce hive elastic-map-reduce

我正在解决我有大量小压缩文本文件的问题。每个文件大小约为10-20kb,并且具有TB数据。我需要将这些文件加载​​到Hive中。之后,Tableau将使用HIVE表来生成报告。我正在使用AWS。

将数据加载到配置单元的最佳方法是什么。我的电话是

  1. 将压缩数据移动到映射器
  2. 使用仅限地图作业对其进行解压缩。
  3. 处理这些txt文件。
  4. 创建一个Hive表
  5. 将映射器中的数据加载到hive表中。 (我关注的是这一步。根据我的理解,可以使用多个映射器将数据加载到Hive表中但不太确定)
  6. 在报告工具中使用配置单元表。
  7. 请建议,有没有更好的方法来处理这种情况。

    由于

0 个答案:

没有答案