在pyspark 2.4中使用正则表达式的ParseException错误

时间:2019-09-24 07:39:40

标签: apache-spark pyspark pyspark-sql pyspark-dataframes

我试图只获取colADD包含非字母数字字符的那些行。

代码:

from pyspark.sql import SparkSession
spark = SparkSession \
     .builder \
     .appName("Test") \
     .getOrCreate()

data = spark.read.csv("Customers");



data.registerTempTable("data");
spark.sql("SELECT colADD from data WHERE colADD REGEXP '^[A-Za-z0-9]+$'; ");

错误:

pyspark.sql.utils.ParseException: u"\nextraneous input ';' 
expecting <EOF>(line 1, pos 56)\n\n== SQL ==\nSELECT CNME from data WHERE CNME REGEXP '^[A-Za-z0-9]+$';

请帮助,我在想什么吗?

2 个答案:

答案 0 :(得分:0)

请注意已使用pyspark-但是似乎不需要删除;-

答案 1 :(得分:0)

  

spark使用了

spark.sql("SELECT col2 from test WHERE col2 REGEXP '^[A-Za-z0-9]*\\-' ").show