我需要使用低延迟上下文使用spark-jobserver
运行聚合Spark作业。我有这个Scala运行器来运行从Java类使用Java方法的工作。
object AggregationRunner extends SparkJob {
def main(args: Array[String]) {
val ctx = new SparkContext("local[4]", "spark-jobs")
val config = ConfigFactory.parseString("")
val results = runJob(ctx, config)
}
override def validate(sc: SparkContext, config: Config): SparkJobValidation = {
SparkJobValid;
}
override def runJob(sc: SparkContext, config: Config): Any = {
val context = new JavaSparkContext(sc)
val aggJob = new ServerAggregationJob()
val id = config.getString("input.string").split(" ")(0)
val field = config.getString("input.string").split(" ")(1)
return aggJob.aggregate(context, id, field)
}
}
但是,我收到以下错误。我尝试取出Java方法中返回的内容,现在只是返回一个测试字符串,但它仍然无法正常工作:
{
"status": "ERROR",
"result": {
"message": "Ask timed out on [Actor[akka://JobServer/user/context-supervisor/single-context#1243999360]] after [10000 ms]",
"errorClass": "akka.pattern.AskTimeoutException",
"stack": ["akka.pattern.PromiseActorRef$$anonfun$1.apply$mcV$sp(AskSupport.scala:333)", "akka.actor.Scheduler$$anon$7.run(Scheduler.scala:117)", "scala.concurrent.Future$InternalCallbackExecutor$.scala$concurrent$Future$InternalCallbackExecutor$$unbatchedExecute(Future.scala:694)", "scala.concurrent.Future$InternalCallbackExecutor$.execute(Future.scala:691)", "akka.actor.LightArrayRevolverScheduler$TaskHolder.executeTask(Scheduler.scala:467)", "akka.actor.LightArrayRevolverScheduler$$anon$8.executeBucket$1(Scheduler.scala:419)", "akka.actor.LightArrayRevolverScheduler$$anon$8.nextTick(Scheduler.scala:423)", "akka.actor.LightArrayRevolverScheduler$$anon$8.run(Scheduler.scala:375)", "java.lang.Thread.run(Thread.java:745)"]
}
}
我不太确定为什么会有超时,因为我只返回一个字符串。
修改
所以我发现问题正在发生,因为我使用的是在更新JAR之前创建的Spark上下文。但是,现在我尝试在Spark作业中使用JavaSparkContext,它将返回上面显示的错误。
什么是摆脱错误的永久方法。
另外,我在本地docker容器上运行繁重的Spark工作的事实是超时的合理原因。
答案 0 :(得分:2)
要解决提问时间问题,请在jobserver配置文件中添加/更改以下属性。
spray.can.server {
idle-timeout = 210 s
request-timeout = 200 s
}