我们如何使用pyspark解析多行

时间:2017-12-19 23:34:32

标签: hive pyspark

我的测试csv文件包含以下内容:

" TVBQGEM461 2016-10-05 14:04:33 cvisser gefixt门公司 "

我需要将整个内容存储到一行中。但是在使用pyspark进行处理时,会将其拆分为2行。

以下是pyspark代码:

from pyspark.sql import SQLContext
from pyspark.sql.types import *

sqlContext = SQLContext(sc)

customSchema = StructType([ \
    StructField("desc", StringType(), True)])

df = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load('/dev/landingzone/test.csv', schema = customSchema)

df.registerTempTable("temp")
sqlContext.sql("create table dev_core_source.test as select * from temp")

数据被加载到配置单元表中,但它们被分成2行而不是1行

我还尝试了一些其他选项,例如下面的选项,用于创建数据框,但仍面临同样的问题。

df = sqlContext.read \
...          .format('com.databricks.spark.csv') \
...          .options(header='true') \
...          .option(inferschema, 'true') \
...          .option(wholeFile, 'true') \
...          .options(parserLib ='UNIVOCITY') \
...          .load('/dev/landingzone/test.csv', schema = customSchema)

0 个答案:

没有答案