Question

我正在尝试使用Spark计算维基百科XML转储中锚文本的频率。

输入/输出：

输入：锚文本列表
输出：（锚文本，频率）对列表

目前的解决方案：

anchor_texts.map(
    key => (key, 1)
).reduceByKey {
    case (acc, i) => acc + i
}

这些工作都没有成功。检查工作日志后，我出现以下错误：

15/12/17 17:28:33 ERROR FileAppender: Error writing stream to file /cs/work/home/hxiao/spark-related/spark-1.5.2-bin-hadoop2.4/work/app-20151217163507-0000/28/stderr

java.io.IOException: Stream closed
        at java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
        at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
        at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
        at java.io.FilterInputStream.read(FilterInputStream.java:107)
        at org.apache.spark.util.logging.FileAppender.appendStreamToFile(FileAppender.scala:70)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply$mcV$sp(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
        at org.apache.spark.util.logging.FileAppender$$anon$1.run(FileAppender.scala:38)

我觉得奇怪的是：

在此阶段之前，我还使用Spark来收集从页面标题到页面ID的映射。一切正常。然而，在这个阶段，它崩溃了。

某些版本信息：

Spark：1.5.2
Scala：2.10.5
模式：群集模式

Spark配置：

SPARK_EXECUTOR_MEMORY=8G
SPARK_DRIVER_MEMORY=8G
SPARK_EXECUTOR_CORES=8

我也觉得奇怪的是

如果我在较小的数据集上运行此程序，一切正常。但是，如果在整个维基百科上，则出现上述错误。

Answer 1

输入路径是什么？ spark在其他操作之前实际上没有将文件读入rdd，尝试使用spark shell并运行代码

val rdd = sc.textFile（＆＃34; path＆＃34;）

val sample = rdd.take（1）

查看路径是否可访问

Spark：IOException，Stream在日志记录期间关闭

1 个答案: