Question

我的测试csv文件包含以下内容：

＆＃34; TVBQGEM461 2016-10-05 14:04:33 cvisser gefixt门公司＆＃34;

我需要将整个内容存储到一行中。但是在使用pyspark进行处理时，会将其拆分为2行。

以下是pyspark代码：

from pyspark.sql import SQLContext
from pyspark.sql.types import *

sqlContext = SQLContext(sc)

customSchema = StructType([ \
    StructField("desc", StringType(), True)])

df = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load('/dev/landingzone/test.csv', schema = customSchema)

df.registerTempTable("temp")
sqlContext.sql("create table dev_core_source.test as select * from temp")

数据被加载到配置单元表中，但它们被分成2行而不是1行

我还尝试了一些其他选项，例如下面的选项，用于创建数据框，但仍面临同样的问题。

df = sqlContext.read \
...          .format('com.databricks.spark.csv') \
...          .options(header='true') \
...          .option(inferschema, 'true') \
...          .option(wholeFile, 'true') \
...          .options(parserLib ='UNIVOCITY') \
...          .load('/dev/landingzone/test.csv', schema = customSchema)

我们如何使用pyspark解析多行

0 个答案: