Spark中的Parallele HTTP API调用

时间:2018-09-21 05:28:23

标签: python scala http apache-spark

我正在努力实现以下两个目标。

a。每个分区以一个API的形式调用多个HTTP api

b。将所有分区的结果合并到一个数据帧中并保留顺序。

根据我的研究,我可以执行以下步骤:

  1. 创建HTTP API url字符串序列,然后在一个数据帧中并行化它们。
  2. 使用mapPartitions来调用进行api调用的方法,据我所知,它将在每个分区中调用api。

这是正确的方法吗?还有如何确保数据到达 在合并之前在每个分区中。

0 个答案:

没有答案