在Spark中从greenplum读取数据时如何更改定界符?

时间:2019-12-17 08:39:30

标签: apache-spark

我的greenplum表中的数据为

col1 col2
1    a|b|c
2    f|g

现在,当我在spark中读取此表时,如何指定定界符以及应该为读取数据指定的定界符,因为数据本身具有|在其中。

代码:

val gscReadOptionMapS = Map("url" -> url,
                            "user" -> GPuser,
                            "password" -> GPpassword,
                            "dbschema" -> stageSchema,
                            "dbtable" -> stgTable_view,
                            "partitionColumn" -> "gp_key" )    

val gpdfStage = spark.read.format("greenplum")
    .options(gscReadOptionMapS).option("maxCharsPerCol","10000").load

gpdfStage.registerTempTable("stage")

spark.sql("select * from stage  ").show(5)

但是最后一次给出arrayIndexOutOfBound的操作失败,因为数据存储为

1|a|b|c
2|f|g

0 个答案:

没有答案