在pyspark

时间:2018-10-16 14:54:31

标签: python-3.x csv pyspark pyspark-sql

我是pyspark的新手,对如何使用它有些困惑。 我的目录结构如下:

主目录

  • dir1-> file1.csv,file2.csv,...
  • dir2-> file1.csv,file2.csv,...
  • dir3-> file1.csv,file2.csv,...

我想使用pyspark中的SQLContext并行执行读取和处理这些csv文件。我想做的是映射目录名称(dir1,dir2,...),并调用辅助函数来处理该特定目录内的csv文件。但事实证明,我无法使用worker函数内的SQLContext来使用pyspark读取具有适当模式的csv文件。

这个问题有解决方案吗?还是我可以采取其他任何更有效的方法呢?我看到有一些有关pyspark中独立执行的问题,例如: How to run independent transformations in parallel using PySpark?

但是我的问题是我想在每个辅助函数中使用SQLContext读取csv文件。任何帮助表示赞赏。

0 个答案:

没有答案