Pyspark从s3读取文件并并行化文件列表

时间:2017-06-17 18:33:36

标签: python apache-spark pyspark

我是Apache Spark和Pyspark的新手。我有一个用例,我必须从s3中的不同文件夹中读取多个文件,然后处理文件内容以进行并行处理。我尝试了各种方法,其中之一是this way。我不明白如何在lambda体内初始化s3客户端。我遇到了同样的问题intervalFired = new EventEmitter<number>(); 。我怎么能平行处理s3文件并读取对象的主体。

这是编辑后的母鹿片段。

TypeError: can't pickle thread.lock objects

0 个答案:

没有答案