在Spark中读取CSV文件时,日期时间/时间戳记被视为字符串

时间:2018-07-24 06:32:11

标签: python csv apache-spark dataframe pyspark

我正在读取Spark中的CSV文件并推断架构

难以正确转换架构。

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true',dateFormat ='yyyy-MM-dd').load('ACTIVITY.csv')

# I have to use below two lines to convert the String type to time stamp
#df = (df.withColumn('START_DT', df.START_DT.cast('timestamp'))
#       .withColumn('END_DT', df.END_DT.cast('timestamp')))
df.printSchema() 

是否有更好的方法来推断模式,而不是对每个列进行类型转换?在我的用例中,可能会出现大量的列,并且很难对每个列进行类型转换。

0 个答案:

没有答案