如何在PySpark中调用python函数?

时间:2018-06-17 08:43:46

标签: python pyspark

我有多个文件(CSV和XML),我想做一些过滤器。 我定义了一个functoin做所有这些过滤器,我想知道如何将其称为适用于我的CSV文件?
PS:我的数据框的类型是:pyspark.sql.dataframe.DataFrame
提前致谢

1 个答案:

答案 0 :(得分:0)

例如,如果您将第一个CSV文件读作df1 = spark.read.csv(..),将第二个CSV文件读作df2 = spark.read.csv(..)

将CSV文件中的所有多个pyspark.sql.dataframe.DataFrame单独汇总到一个列表中。

csvList = [df1, df2, ...]

然后,

for i in csvList:
    YourFilterOperation(i)

基本上,对于来自i中存储的CSV文件的pyspark.sql.dataframe.DataFrame的每个csvList,它应该逐个迭代,进入循环并执行任何过滤操作你已经写好了。

由于您还没有提供任何可重现的代码,我无法查看这是否适用于我的Mac。