我正在开发一个14 csv文件项目。其中10个正确装入猪。 4不要。
当我精确确定模式中列的类型时会出现问题:如果我使用列名加载文件但没有类型转换(即:所有列默认为'bytearray'),我没有问题:数据加载。
但如果我确定列类型(我只是要求'chararray'),我会收到'EOF'异常错误。当列中的字段为空时,似乎随机出现错误。 奇怪的是,如果没有类型转换,相同的文件将完美加载,如果我精确地“chararray”转换,则不会加载。此外,我可以在其他csv文件中加载空列(有或没有转换列)。
可能是什么原因?
我在某处读到蜂巢环境配置可能会弄脏猪。我正在使用Yarn,Mesos,Docker,Marathon:那里有干扰吗? (但是当我在本地模式下使用grunt时,全局错误发生了。)
答案 0 :(得分:0)
我终于发现我已经激活了pig.schematuple
选项,这是一个实验性选项,并创建了一个错误:当列数超过9列时,文件无法加载,并且单元格为空(如果少于9列,则会加载空单元格。
经历了2个工作日的遗失:-s