Hadoop Pig - 在简单负载下的EOF异常

时间:2015-04-01 22:40:21

标签: csv hadoop load apache-pig

我正在开发一个14 csv文件项目。其中10个正确装入猪。 4不要。

当我精确确定模式中列的类型时会出现问题:如果我使用列名加载文件但没有类型转换(即:所有列默认为'bytearray'),我没有问题:数据加载。

但如果我确定列类型(我只是要求'chararray'),我会收到'EOF'异常错误。当列中的字段为空时,似乎随机出现错误。 奇怪的是,如果没有类型转换,相同的文件将完美加载,如果我精确地“chararray”转换,则不会加载。此外,我可以在其他csv文件中加载空列(有或没有转换列)。

可能是什么原因?

我在某处读到蜂巢环境配置可能会弄脏猪。我正在使用Yarn,Mesos,Docker,Marathon:那里有干扰吗? (但是当我在本地模式下使用grunt时,全局错误发生了。)

1 个答案:

答案 0 :(得分:0)

我终于发现我已经激活了pig.schematuple选项,这是一个实验性选项,并创建了一个错误:当列数超过9列时,文件无法加载,并且单元格为空(如果少于9列,则会加载空单元格。

经历了2个工作日的遗失:-s