使用Pyspark执行POST REST请求

时间:2018-09-24 15:36:23

标签: rest pyspark

作为oozie工作的一部分,我有一个pyspark脚本。动作如下: 1.从数据存储中获取数据。 2.群集上的一些数据整理操作。 3.下载数据。当前,在pyspark数据帧上执行toPandas()。[这样做可以轻松转换为json转储] 4.将数据推送到REST API。

仅由于步骤(4)才需要步骤(3),因为我需要将数据放在驱动程序上才能进行REST调用。但是,我注意到步骤(3)负责脚本的可变执行时间以及脚本的变慢。我的问题是可能从工作程序节点调用并发布到REST API吗?我看到了一些使用REST(https://dataplatform.cloud.ibm.com/analytics/notebooks/52845a4a-1b5e-4f6e-b1a3-f312d796a93a/view?access_token=e3f303d7dd90138a9cf1fb77b00265a7b02aa12b891c2018e2e547f2050ef4e0)中的GET请求的示例,但这不适用于我的用例。

0 个答案:

没有答案