Question

我在Cascading中使用TextLine来加载Cascading中包含非常大的行的文件。线条非常长 - 平均约30Mb，有些长得多。当我在本地运行作业进行测试时，它运行正常，但是当我在集群上运行它时，经过一段时间的密集运算后它就会失败。它会出现如下错误：

cascading.tuple.TupleException: unable to read from input identifier: maprfs:/xxx/xxx/xxx/part-00001
at cascading.tuple.TupleEntrySchemeIterator.hasNext(TupleEntrySchemeIterator.java:127)
at cascading.flow.stream.SourceStage.map(SourceStage.java:76)
at cascading.flow.stream.SourceStage.run(SourceStage.java:58)
at cascading.flow.hadoop.FlowMapper.run(FlowMapper.java:127)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:443)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:353)
at org.apache.hadoop.mapred.Child$4.run(Child.java:282)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1122)
at org.apache.hadoop.mapred.Child.main(Child.java:271)

它有时也会抱怨过时的文件句柄。它试图阅读的文件肯定存在。拜托，有人可以帮助我吗？

在Cascading中使用TextLine加载极长的行

0 个答案: