Spark:从REST服务创建RDD

时间:2015-02-24 14:02:02

标签: apache-spark

Spark中是否有可用于将RDD绑定到REST服务的开箱即用功能?也就是说,调用Web服务并获取RDD。

或者是我自己调用其余服务并将结果集合转换为RDD的最简单方法?

感谢。

2 个答案:

答案 0 :(得分:0)

我使用了jersey客户端,读取了一个字符串(每行一个补充json文档),并用这个字符串做了这个:

val stringResponse = request.request().get(classOf[String])
val jsonDataset = session.createDataset[String](Seq(stringResponse))
// try with case class
val parsedResponse = session.read.json(jsonDataset)

...这会产生一个可以选择内容的DataFrame。

答案 1 :(得分:-2)

您可以参考链接Spark-Jobserver

我认为您正在寻找的Spark-Jobserver的一些功能是:

  • " Spark as a Service":简单的REST界面,用于工作,上下文管理的各个方面
  • 启动和停止RDD共享和低延迟作业的作业上下文;在重新启动时更改资源
  • 异步和同步作业API。同步API非常适合低延迟作业!
  • 命名RDD以按名称缓存和检索RDD,改善RDD共享和在作业之间重用。

希望这有帮助。