Hadoop XML解析 - Sqoop和pig / hive / MR

时间:2015-12-22 23:02:35

标签: xml hadoop hive apache-pig sqoop

源数据库有一个包含一堆列的表,其中一列是包含XML的CLOB。

要求是将此表sqoop为HDFS并将此原始数据分解为多个文件。可能必须在这些文件之上创建Hive表。

我正在努力了解性能等最佳解决方案,以实现相同的目标。我缩小了以下选项

  1. 读取xml列的MR作业(使用XPath或一些xml解析FW)以及其他列,根据需要存储到多个文件中。

  2. 使用Pig XPath UDF

  3. 使用xmlSerde(com.ibm.spss .... package)

  4.   

    Q1。对这些选项和任何其他选项的任何想法会有所帮助吗?

         

    对于选项2,我不认为XMLLoader可以按预期使用   基础文件使XML不是其他列。
      Q2。我在这儿吗?

         

    Q3。即使它只有XML,我能处理多个XML(同样的   虽然结构在同一个文件中?

0 个答案:

没有答案