从 REST API 并行加载数据帧

时间:2021-03-09 19:46:04

标签: dask

我想通过 HTTP POST 向 REST API 发出并行请求,该请求返回 CSV(可选 JSON)并将结果加载到数据帧中。有没有这种情况的例子?我没有运气搜索过。下面是我可以用来搜索的示例 cURL 命令:

    https://someserver/search \
    -d search="${1}" \
    -d count=100 -d output=csv

对于通过某些搜索谓词(例如 state="MD")进行分区的每个请求,搜索字符串需要不同

1 个答案:

答案 0 :(得分:1)

如果您仔细阅读 dask 的 delayed 文档,这听起来很简单

import dask
import dask.dataframe as dd
import pandas

url = 'https://someserver/search?search={}&count=100&output=csv'


@dask.delayed
def load_one_query(i):
    return df.read_csv(url.format(i))

df = dd.from_delayed([load_one_query(i) for i in ...])

(您可能需要对查询/网址进行网址引用)