如何使用Hadoop处理大型XML文件?

时间:2013-09-20 15:14:06

标签: xml hadoop

我有一个带有600K记录的3 GB XML文件,我需要每天在Hadoop上处理这些记录。基本上我需要将这些记录存储在Hbase中。 这样做的有效方法是什么?我应该拆分文件并让多个映射器处理文件吗?你能推荐一种快速分割的方法吗?

感谢。

1 个答案:

答案 0 :(得分:0)

如果拆分文件,则可以从代码中调用命令行xml文件分割器。有些是商业的,有些是OS。谷歌“拆分大xml”