Mahout的XmlInputFormat是否可以处理gzip压缩文件而无需重写?

时间:2017-10-16 04:15:35

标签: xml hadoop mapreduce gzip mahout

Mahout的XmlInputFormat可以处理gzip压缩数据而不会覆盖它的任何方法吗?我一直试图解析经过gzip压缩的维基百科xml数据,到目前为止还没有成功。

我听说Hadoop能够自动处理gzip压缩文件,但我现在假设它包含在TextInputFormat类中,或者特定于其他输入格式,并没有内置到Mahout的输入中格式。但也许我错过了一些东西。

注意:我已经能够解析xml了,但是我从来没有找到一个明确的答案,并且很惊讶我很难找到一个。希望更聪明的人可以启发我&其他

1 个答案:

答案 0 :(得分:1)

根据这个{code},没有处理编解码器,没有超越我不认为它是可能的。

包含LineRecordReader它看起来像这个{code}并且基于文件扩展名它确实应用了编解码器。

你仍然可以通过cloud9 {here}

使用WikipediaPageInputFormat来试一试

他们处理了{codec},检查它是否适合您。