Pyspark管道定制变压器

时间:2019-05-16 21:01:04

标签: pyspark transformer

在理解为Pyspark管道创建自定义转换器方面遇到一些麻烦。

我正在编写一个自定义转换器,它将使用数据框列Company并删除流浪逗号:

from pyspark.sql.functions import *

class DFCommaDropper(Transformer):

    def__init__(self, *args, **kwargs):
        self.name = CommaDropper

    def transform(self,df):
        df = df.withColumn('Company', regexp_replace('Company',',','')
        return df

上面的代码显然是错误的。我不确定什么/如何初始化它,然后如何在转换函数中使用初始化的类实例。

在此先感谢您的帮助。

0 个答案:

没有答案