python-3.x - 在pyspark - Thinbug

在pyspark

时间：2018-10-16 14:54:31

标签： python-3.x csv pyspark pyspark-sql

我是pyspark的新手，对如何使用它有些困惑。我的目录结构如下：

主目录

dir1-> file1.csv，file2.csv，...
dir2-> file1.csv，file2.csv，...
dir3-> file1.csv，file2.csv，...

我想使用pyspark中的SQLContext并行执行读取和处理这些csv文件。我想做的是映射目录名称（dir1，dir2，...），并调用辅助函数来处理该特定目录内的csv文件。但事实证明，我无法使用worker函数内的SQLContext来使用pyspark读取具有适当模式的csv文件。

这个问题有解决方案吗？还是我可以采取其他任何更有效的方法呢？我看到有一些有关pyspark中独立执行的问题，例如： How to run independent transformations in parallel using PySpark?

但是我的问题是我想在每个辅助函数中使用SQLContext读取csv文件。任何帮助表示赞赏。

0 个答案:

没有答案