我正在读取Spark中的CSV文件并推断架构
难以正确转换架构。
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true',dateFormat ='yyyy-MM-dd').load('ACTIVITY.csv')
# I have to use below two lines to convert the String type to time stamp
#df = (df.withColumn('START_DT', df.START_DT.cast('timestamp'))
# .withColumn('END_DT', df.END_DT.cast('timestamp')))
df.printSchema()
是否有更好的方法来推断模式,而不是对每个列进行类型转换?在我的用例中,可能会出现大量的列,并且很难对每个列进行类型转换。