试图将XML数据加载到Hive中......错误地解释了行返回

时间:2015-01-28 13:07:07

标签: xml hadoop hive

我在Hive中使用以下查询

--Load xml data to table
DROP table xmltable;
Create TABLE xmltable(xmldata string) STORED AS TEXTFILE;
LOAD DATA lOCAL INPATH '/home/user/data-input.xml' OVERWRITE INTO TABLE xmltable;

碰巧,我的xml文件(其中一个包含一个根元素)被加载并创建8行而不是预期的行。这是因为我认为我的文件中有行返回...是否有任何方法可以避免(某些解决方法),或者我应该使用其他工具预先处理我的文件? (在这里寻找建议)

谢谢!

1 个答案:

答案 0 :(得分:1)

虽然Hive中有“LINES TERMINATED BY”构造,但它只支持换行符。所以不,没有简单的解决方法。您要么必须预处理文件,要么使用设计用于处理xml文件的UDF(检查由Stephanie链接的问题的答案)