从Postgres到Hive / HDFS的每日数据存档

时间:2019-09-29 03:57:41

标签: postgresql hive hdfs bigdata sqoop

我正在研究IOT数据管道,并且每秒都将来自多个设备的消息接收到postgres数据库中。 Postgres将只保留两天的数据,两天后将刷新数据,以便每次都有最近两天的数据。现在,我需要每天进行从Postgres到HDFS的数据归档。我有的参数是: deviceid, timestamp, year, month, day, temperature, humidity

我想每天将其归档到HDFS中,并使用配置单元查询来查询该数据。为此,我需要使用deviceid,年和月作为分区在Hive中创建外部分区表。我尝试了以下选项,但不起作用:

  1. 我尝试使用sqoop进行数据复制,但是它无法基于不同的deviceid,年和月创建动态文件夹,以便外部配置单元表可以选择分区
  2. 使用了--hive-import属性的sqoop导入,以便可以将数据直接复制到配置单元表中,但是在这种情况下,它会覆盖现有表,而且我不确定这是否适用于分区表

请为归档提出一些解决方案。

注意:我正在使用azure服务,因此Azure Data Factory的选项处于打开状态。

0 个答案:

没有答案