在apache pig中解析XML和HTML

时间:2013-03-04 09:42:27

标签: html xml parsing apache-pig

我们如何使用apache pig运行XML。我尝试使用piggybank.storage.XMLLoader函数,但它不适用于我。我只在本地模式下运行猪工作。没有错误,但它没有运行。

有没有办法解析apache pig中的HTML页面。

请帮帮我。

提前致谢

3 个答案:

答案 0 :(得分:1)

你需要使用带参数的org.apache.pig.piggybank.storage.XMLLoader()。 和Xpath也是如此。我发现this一个有用。

答案 1 :(得分:0)

请尝试在MR模式下运行脚本。因为许多功能/操作仅在MR模式下正常工作。

答案 2 :(得分:0)

试试这段代码:

register <PIG_HOME>/contrib/piggybank/java/piggybank.jar; 
A= LOAD '/xmlfile' USING org.apache.pig.piggybank.storage.XMLLoader('<XML_tag>');

通过猪MR模式,我的意思是在MR模式下运行猪,而不是在本地模式下运行(即猪-x本地)。

希望它有所帮助。