应用错误收集

如何使用Hadoop处理大型XML文件？

时间：2013-09-20 15:14:06

标签： xml hadoop

我有一个带有600K记录的3 GB XML文件，我需要每天在Hadoop上处理这些记录。基本上我需要将这些记录存储在Hbase中。这样做的有效方法是什么？我应该拆分文件并让多个映射器处理文件吗？你能推荐一种快速分割的方法吗？

感谢。

1 个答案:

答案 0 :(得分：0)

如果拆分文件，则可以从代码中调用命令行xml文件分割器。有些是商业的，有些是OS。谷歌“拆分大xml”