源数据库有一个包含一堆列的表,其中一列是包含XML的CLOB。
要求是将此表sqoop为HDFS并将此原始数据分解为多个文件。可能必须在这些文件之上创建Hive表。
我正在努力了解性能等最佳解决方案,以实现相同的目标。我缩小了以下选项
读取xml列的MR作业(使用XPath或一些xml解析FW)以及其他列,根据需要存储到多个文件中。
使用Pig XPath UDF
使用xmlSerde(com.ibm.spss .... package)
Q1。对这些选项和任何其他选项的任何想法会有所帮助吗?
对于选项2,我不认为XMLLoader可以按预期使用 基础文件使XML不是其他列。
Q2。我在这儿吗?Q3。即使它只有XML,我能处理多个XML(同样的 虽然结构在同一个文件中?