我的测试csv文件包含以下内容:
" TVBQGEM461 2016-10-05 14:04:33 cvisser gefixt门公司 "
我需要将整个内容存储到一行中。但是在使用pyspark进行处理时,会将其拆分为2行。
以下是pyspark代码:
from pyspark.sql import SQLContext
from pyspark.sql.types import *
sqlContext = SQLContext(sc)
customSchema = StructType([ \
StructField("desc", StringType(), True)])
df = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load('/dev/landingzone/test.csv', schema = customSchema)
df.registerTempTable("temp")
sqlContext.sql("create table dev_core_source.test as select * from temp")
数据被加载到配置单元表中,但它们被分成2行而不是1行
我还尝试了一些其他选项,例如下面的选项,用于创建数据框,但仍面临同样的问题。
df = sqlContext.read \
... .format('com.databricks.spark.csv') \
... .options(header='true') \
... .option(inferschema, 'true') \
... .option(wholeFile, 'true') \
... .options(parserLib ='UNIVOCITY') \
... .load('/dev/landingzone/test.csv', schema = customSchema)