标签: xml hadoop
我有一个带有600K记录的3 GB XML文件,我需要每天在Hadoop上处理这些记录。基本上我需要将这些记录存储在Hbase中。 这样做的有效方法是什么?我应该拆分文件并让多个映射器处理文件吗?你能推荐一种快速分割的方法吗?
感谢。
答案 0 :(得分:0)
如果拆分文件,则可以从代码中调用命令行xml文件分割器。有些是商业的,有些是OS。谷歌“拆分大xml”