我正在研究IOT数据管道,并且每秒都将来自多个设备的消息接收到postgres数据库中。 Postgres将只保留两天的数据,两天后将刷新数据,以便每次都有最近两天的数据。现在,我需要每天进行从Postgres到HDFS的数据归档。我有的参数是:
deviceid, timestamp, year, month, day, temperature, humidity
我想每天将其归档到HDFS中,并使用配置单元查询来查询该数据。为此,我需要使用deviceid,年和月作为分区在Hive中创建外部分区表。我尝试了以下选项,但不起作用:
--hive-import
属性的sqoop导入,以便可以将数据直接复制到配置单元表中,但是在这种情况下,它会覆盖现有表,而且我不确定这是否适用于分区表请为归档提出一些解决方案。
注意:我正在使用azure服务,因此Azure Data Factory的选项处于打开状态。