从JDBC连接到Hive摄取数据:处理二进制列

时间:2018-08-27 07:48:34

标签: java jdbc hive hdfs ocr

下图描述了我们正在构建的简化的提取流程,以将数据从不同的RDBS提取到Hive。

第1步:使用JDBC连接到数据源,使用HDFS Java API传输源数据并将其保存在HDFS上的CSV文件中。         基本上,执行“ SELECT *”查询,并将每一行保存在CSV中,直到ResultSet用完为止。

第2步:使用LOAD DATA INPATH命令,使用在第1步中创建的CSV文件填充Hive表。

我们使用JDBC ResultSet.getString()获取列数据。 对于非二进制数据,这很好。

但是对于BLOC,CLOB类型的列,我们无法将列数据写入文本/ CSV文件。

我的问题是可以使用OCR或AVRO格式处理二进制列吗?这些格式是否支持逐行写入?

(更新:我们知道Sqoop / Nifi..etc技术,实现我们自定义摄取流的原因不在此问题的范围之内)

enter image description here

0 个答案:

没有答案