Spark:IOException,Stream在日志记录期间关闭

时间:2015-12-15 21:45:23

标签: scala apache-spark ioexception

我正在尝试使用Spark计算维基百科XML转储中锚文本的频率。

输入/输出:

  • 输入:锚文本列表
  • 输出:(锚文本,频率)对列表

目前的解决方案:

anchor_texts.map(
    key => (key, 1)
).reduceByKey {
    case (acc, i) => acc + i
}

这些工作都没有成功。检查工作日志后,我出现以下错误:

15/12/17 17:28:33 ERROR FileAppender: Error writing stream to file /cs/work/home/hxiao/spark-related/spark-1.5.2-bin-hadoop2.4/work/app-20151217163507-0000/28/stderr

java.io.IOException: Stream closed
        at java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
        at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
        at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
        at java.io.FilterInputStream.read(FilterInputStream.java:107)
        at org.apache.spark.util.logging.FileAppender.appendStreamToFile(FileAppender.scala:70)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply$mcV$sp(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
        at org.apache.spark.util.logging.FileAppender$$anon$1.run(FileAppender.scala:38)

我觉得奇怪的是:

在此阶段之前,我还使用Spark来收集从页面标题到页面ID的映射。一切正常。然而,在这个阶段,它崩溃了。

某些版本信息:

  • Spark:1.5.2
  • Scala:2.10.5
  • 模式:群集模式

Spark配置:

SPARK_EXECUTOR_MEMORY=8G
SPARK_DRIVER_MEMORY=8G
SPARK_EXECUTOR_CORES=8

我也觉得奇怪的是

如果我在较小的数据集上运行此程序,一切正常。但是,如果在整个维基百科上,则出现上述错误。

1 个答案:

答案 0 :(得分:0)

输入路径是什么? spark在其他操作之前实际上没有将文件读入rdd,尝试使用spark shell并运行代码

val rdd = sc.textFile(" path")

val sample = rdd.take(1)

查看路径是否可访问