应用错误收集

我正在读取Spark中的CSV文件并推断架构

难以正确转换架构。

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true',dateFormat ='yyyy-MM-dd').load('ACTIVITY.csv')

# I have to use below two lines to convert the String type to time stamp
#df = (df.withColumn('START_DT', df.START_DT.cast('timestamp'))
#       .withColumn('END_DT', df.END_DT.cast('timestamp')))
df.printSchema()

是否有更好的方法来推断模式，而不是对每个列进行类型转换？在我的用例中，可能会出现大量的列，并且很难对每个列进行类型转换。

在Spark中读取CSV文件时，日期时间/时间戳记被视为字符串

0 个答案: