Spark解析管道分隔文件不正确

时间:2019-03-18 03:48:38

标签: pyspark

有一个读取.csvs的进程就可以了。由于某些数据的发送方式,我们需要切换定界符。尝试进行以下更改:

当前

df = spark.read.option("header", "true") \
      .option("delimiter", ",") \
      .option("inferSchema", "false") \
      .csv("file")

建议

df = spark.read.option("header", "true") \
      .option("delimiter", "|") \
      .option("inferSchema", "false") \
      .csv("file")

但是,这错误地解析了文件。当我在df上调用.printSchema()时,

我看到以下内容:

root
 |-- col1,col2,col3,col4: string (nullable = true)

似乎无法单独解析各列。我已经尝试过.read.csv和其他一些变体,但是无论如何输入数据,我都遇到相同的问题。

0 个答案:

没有答案