我是Apache Spark和Pyspark的新手。我有一个用例,我必须从s3中的不同文件夹中读取多个文件,然后处理文件内容以进行并行处理。我尝试了各种方法,其中之一是this way。我不明白如何在lambda体内初始化s3客户端。我遇到了同样的问题intervalFired = new EventEmitter<number>();
。我怎么能平行处理s3文件并读取对象的主体。
这是编辑后的母鹿片段。
TypeError: can't pickle thread.lock objects