网上有一些信息表明Mahout的XMLInputFormat可用于在hadoop上有效地处理XML,但我一直无法找到如何使其工作的示例。有人能指出我正确的方向吗?
我正在使用Cascalog / Clojure。
答案 0 :(得分:0)
只需看看这个就可以使用记录阅读器的hadoop实现读取xml文件:
http://javatute.com/javatute/faces/post/hadoop/2014/reading-simple-xml-file-using-hadoop.xhtml