使用CSV文件的MapReduce rmr2 - HDFS中的列损坏

时间:2017-04-20 00:55:49

标签: r csv hadoop mapreduce rmr2

使用rmr2执行MapReduce时,我在HDFS中遇到CSV数据集问题。

只有1个文件,MapReduce工作正常,没有发现错误,但是当同一文件夹中的2个或更多数据集数据开始中断并且结果开始崩溃时,如下所示:

Error Screenshot

从第16行开始,错误开始并一直持续到文件结束。

使用的MapReduce是:

calc = mapreduce(
 input="hdfs://127.0.0.1:8020/user/cloudera/flumeFinal",
  input.format=make.input.format(format="csv", sep = ",",
  col.names=col.names,stringsAsFactors=F),
    map=function(k,lines){
     k <- lines[2]
     return(keyval(k,1))
     },
    reduce= function(k,lines) {
     keyval(k,sum(lines))

有没有人遇到类似的问题,可以帮忙解决这个问题?

谢谢, 布鲁诺

0 个答案:

没有答案