如果列类型具有某种正则表达式模式,则pyspark忽略行

时间:2018-09-10 12:24:34

标签: pyspark apache-spark-sql pyspark-sql

我有一个json格式的数据文件,它的一个字段以字符串以及结构类型存在

当是字符串

"class":{"student":"{\"one\":\"one\"}"}

是结构

    "class": {
        "student": {
            "name": ["aaa"],
            "subject": ["a", "b"],
            "regular": true
        }
    }

现在,我想在该值是字符串类型时删除该行。

具体来说,我想删除如果值中有'\'这个符号,并将其他行转换为json结构类型。这样我就可以访问“ class.student.name”

的特定值

1 个答案:

答案 0 :(得分:0)

假设您的数据帧称为%Y,而列df会过滤掉不需要的行:

col