什么应该是一个Hadoop发行版的理想方法,一个大文件有多少xmls连续丢弃?

时间:2014-02-20 06:11:47

标签: hadoop mahout

如何确保块具有完整的xml而不是共享的bw 2块(因为块大小有限制 - 64MB / 128MB等)?

XMLInputFormat确保将单个xml传送到map函数。但是,如果xml是1个块并且在其他块中休息会怎么样呢?如何解决这个问题?

0 个答案:

没有答案