有没有人尝试使用PySpark查找外部API?

时间:2018-08-20 17:51:02

标签: pyspark python-requests

检查是否有人使用pyspark分发数据,并使用它来查找外部API并存储结果。

我正在解决这个问题: 我有一个带有100000行用户代理的源文件。我必须查找一个外部API(使用请求)并获取用户代理的特征并将其存储。我能够以合理的方式使用队列和线程来完成此任务。 但是,我注意到10万行数可能变成一百万。

我在考虑是否可以使用Spark来分发数据并使用执行程序以并行方式执行此API查找操作。

有人做到了吗?

0 个答案:

没有答案