Hadoop map-reduce输出包含奇怪的字符

时间:2012-11-13 23:55:44

标签: java hadoop

我正在运行地图减少工作。当我在我的机器上运行它是一个单节点集群时,输出如图所示

hduser@nikhil-VirtualBox:/usr/local/hadoop/hadoop-1.0.4$ bin/hadoop dfs -text /user/hduser/output16/part-r-00000
0   Required Genotype column (s), Must not contain NULLS for required fields, failed, 5, 1: GENE_NAME; 2: GENE_NAME; 4: GENE_NAME; 5: GENE_NAME; 9: GENE_NAME

然而,当我在更大的数据集上在Amazon EMR上运行相同的操作时,我会得到以下所有奇怪的字符。可能是什么原因?

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text\00\00\00\00\00\00\968\D6\FA\E1>X(.q\8B!\ABQ\00\00-\00\00\00
1537044153\8ERequired Genotype column (s), Must not contain NULLS for required fields, failed, 1, 1: VARIANT_START_POSITION; 2: VARIANT_START_POSITION; 

1 个答案:

答案 0 :(得分:2)

标题(SEQTextText)告诉您这是SequenceFile,其中org.apache.hadoop.io.Text为关键字和值。

所以这是二进制而不是纯文本,您可以使用SequenceFile.Reader来阅读它。