标签: xml hadoop mapreduce gzip mahout
Mahout的XmlInputFormat可以处理gzip压缩数据而不会覆盖它的任何方法吗?我一直试图解析经过gzip压缩的维基百科xml数据,到目前为止还没有成功。
我听说Hadoop能够自动处理gzip压缩文件,但我现在假设它包含在TextInputFormat类中,或者特定于其他输入格式,并没有内置到Mahout的输入中格式。但也许我错过了一些东西。
注意:我已经能够解析xml了,但是我从来没有找到一个明确的答案,并且很惊讶我很难找到一个。希望更聪明的人可以启发我&其他
答案 0 :(得分:1)
根据这个{code},没有处理编解码器,没有超越我不认为它是可能的。
包含LineRecordReader它看起来像这个{code}并且基于文件扩展名它确实应用了编解码器。
你仍然可以通过cloud9 {here}
他们处理了{codec},检查它是否适合您。