我是pyspark的新手,对如何使用它有些困惑。 我的目录结构如下:
我想使用pyspark中的SQLContext并行执行读取和处理这些csv文件。我想做的是映射目录名称(dir1,dir2,...),并调用辅助函数来处理该特定目录内的csv文件。但事实证明,我无法使用worker函数内的SQLContext来使用pyspark读取具有适当模式的csv文件。
这个问题有解决方案吗?还是我可以采取其他任何更有效的方法呢?我看到有一些有关pyspark中独立执行的问题,例如: How to run independent transformations in parallel using PySpark?
但是我的问题是我想在每个辅助函数中使用SQLContext读取csv文件。任何帮助表示赞赏。