我在Hive中使用以下查询
--Load xml data to table
DROP table xmltable;
Create TABLE xmltable(xmldata string) STORED AS TEXTFILE;
LOAD DATA lOCAL INPATH '/home/user/data-input.xml' OVERWRITE INTO TABLE xmltable;
碰巧,我的xml文件(其中一个包含一个根元素)被加载并创建8行而不是预期的行。这是因为我认为我的文件中有行返回...是否有任何方法可以避免(某些解决方法),或者我应该使用其他工具预先处理我的文件? (在这里寻找建议)
谢谢!
答案 0 :(得分:1)
虽然Hive中有“LINES TERMINATED BY”构造,但它只支持换行符。所以不,没有简单的解决方法。您要么必须预处理文件,要么使用设计用于处理xml文件的UDF(检查由Stephanie链接的问题的答案)