在将Spark数据框架转换为Pandas数据框架时出现数据类型问题

时间:2019-03-28 18:13:30

标签: pandas

从pyspark数据框转换为熊猫数据框时,am遇到日期列问题

df1=spark.read.format("com.databricks.spark.csv").option("header","true").option("quoteAll","true").option('quote','"').option('escape','"').csv("my/path/to/csvfile")
df1 = df1.withColumn("Input_Date",df1["Input_Date"].cast(DateType()))

pdf = df1.toPandas()

pdf = pdf.sort_values('Input_Date').drop_duplicates(['Id'],keep='last')   
pdf.fillna("", inplace = True)
display(pdf)
df1 = sqlContext.createDataFrame(pdf)

但是我面临以下错误。 field:Input_Date:无法合并类型和

请您帮忙解决此问题?我无法像在pyspark数据框中那样将字段Input_date转换为日期类型。 熊猫如何处理输入中的日期字段。熊猫会默认转换为其他类型吗?

0 个答案:

没有答案