我正在尝试使用Spark计算维基百科XML转储中锚文本的频率。
输入/输出:
目前的解决方案:
anchor_texts.map(
key => (key, 1)
).reduceByKey {
case (acc, i) => acc + i
}
这些工作都没有成功。检查工作日志后,我出现以下错误:
15/12/17 17:28:33 ERROR FileAppender: Error writing stream to file /cs/work/home/hxiao/spark-related/spark-1.5.2-bin-hadoop2.4/work/app-20151217163507-0000/28/stderr
java.io.IOException: Stream closed
at java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
at java.io.FilterInputStream.read(FilterInputStream.java:107)
at org.apache.spark.util.logging.FileAppender.appendStreamToFile(FileAppender.scala:70)
at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply$mcV$sp(FileAppender.scala:39)
at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
at org.apache.spark.util.logging.FileAppender$$anon$1.run(FileAppender.scala:38)
我觉得奇怪的是:
在此阶段之前,我还使用Spark来收集从页面标题到页面ID的映射。一切正常。然而,在这个阶段,它崩溃了。
某些版本信息:
Spark配置:
SPARK_EXECUTOR_MEMORY=8G
SPARK_DRIVER_MEMORY=8G
SPARK_EXECUTOR_CORES=8
我也觉得奇怪的是
如果我在较小的数据集上运行此程序,一切正常。但是,如果在整个维基百科上,则出现上述错误。
答案 0 :(得分:0)
输入路径是什么? spark在其他操作之前实际上没有将文件读入rdd,尝试使用spark shell并运行代码
val rdd = sc.textFile(" path")
val sample = rdd.take(1)
查看路径是否可访问