在Impala中导入小流

时间:2016-10-24 15:36:31

标签: hadoop apache-kafka hadoop-streaming impala

我们目前正在进行大数据项目。

大数据平台Hadoop Cloudera。

我们的系统输入我们有一小部分数据,我们通过Kafka(大约80Mo / h连续)收集。

然后消息存储在HDFS中,以便通过Impala进行查询。

我们的客户不希望将热数据与冷数据分开。 5分钟后,必须在历史数据(冷数据)中访问数据。我们选择了一个数据库。

要插入数据,我们使用Impala API提供的JDBC连接器(例如INSERT INTO ...)。 我们知道这不是推荐的解决方案,每个Impala插入都会在HDFS中创建一个文件(<10kb)。

我们寻求一种解决方案,在Imapala基础中插入一个小流,避免获取许多小文件。 我们预先确定了什么解决方案?

0 个答案:

没有答案