由于某种原因,我使用以下代码获取Task不可序列化的异常。我正在使用sbt test在本地spark上运行它。
@RunWith(classOf[JUnitRunner])
class NQTest extends FeatureSpec with Matchers with Serializable {
val conf = new SparkConf().setAppName("NQ Market Makers Test").setMaster("local")
val sc = new SparkContext(conf)
...
val testData : RDD[(String, String)] = sc.textFile("testcases/NQIntervalsTestData").map { line => (line.split(":", 2)(0), line.split(":", 2)(1)) }
testData.persist();
def testDatasets(input : Int) = {
testData.filter(_ match {
case (s, _) => (s == "Test Case " + input)
case _ => false
}).map(x => x match {
case (_, line) => line
})
}
...
feature("NQIntervals") {
scenario("Test data sanity check") {
(testDatasets(1).collect()) should not be null
}
}
}
例外:
org.apache.spark.SparkException: Task not serializable
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)
at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)
at org.apache.spark.SparkContext.clean(SparkContext.scala:1623)
at org.apache.spark.rdd.RDD.filter(RDD.scala:303)
at test.scala.org.<redacted>.NQTest$.testDatasets(NQTest.scala:31)
与我在这里看到的关于此异常的其他堆栈溢出问题不同,这似乎与RDD本身有关,而不是我传递给过滤器的函数。
例如,我们可以完全删除过滤器和地图,但我们仍然会在收集过程中结束异常。从我的谷歌搜索,我只能找到涉及过滤器或地图内不可序列化对象的问题的答案,而不是RDD本身的问题。
到目前为止我尝试过的事情:
testDatasets(1).collect()
组成的一行主方法:仍然是相同的异常testData.persist()
:仍然是同样的例外欢迎任何见解!
答案 0 :(得分:0)
原来我是一个很大的白痴,并且在实际测试运行之前就停止了火花环境。 无视