插入Impala表vs写入HDFS

时间:2017-07-30 08:14:20

标签: java arraylist impala

我有大约1万条记录(在Java中存储为ArrayList)。我想将这些记录插入Impala。

我应该使用insert into table partition values直接插入黑斑羚。 (我不确定在一个sql语句中可以插入多少条记录。)

或者我应该将这些记录写入HDFS然后alter impala表吗?

首选哪种方式?或者还有其他解决方案吗?

而且,如果我每隔5分钟执行一次这样的操作,如何在一个分区中避免这么多小文件(按小时分区)?这些将在每个分区中生成12个小文件,这会影响查询速度吗?

1 个答案:

答案 0 :(得分:0)

你能做的最好的事情就是:

  1. 在impala中创建一个表作为与HDFS路由关联的外部表
  2. 直接在HDFS中进行插入,如果可能,每小时,每小时可能很少
  3. 执行invalidate metada $ TABLE_NAME命令以使数据可见
  4. 我希望答案能为你服务

    问候!