标签: pyspark python-requests
检查是否有人使用pyspark分发数据,并使用它来查找外部API并存储结果。
我正在解决这个问题: 我有一个带有100000行用户代理的源文件。我必须查找一个外部API(使用请求)并获取用户代理的特征并将其存储。我能够以合理的方式使用队列和线程来完成此任务。 但是,我注意到10万行数可能变成一百万。
我在考虑是否可以使用Spark来分发数据并使用执行程序以并行方式执行此API查找操作。
有人做到了吗?