我有一个Formal Class DataFrame对象,它从MySQL上传到SparkR(通过json文件),其中包含这样的格式化字符串: " 2012-07-02 20:14:00"
我需要在SparkR中将这些转换为日期时间类型,但这似乎还不支持。是否有未记录的函数或使用UDF执行此操作的方法? (Nb。之前我还没有尝试过创建SparkR UDF,所以我在这里抓住稻草。)
答案 0 :(得分:4)
Spark SQL不支持R UDF,但在这种特殊情况下,您可以简单地转换为timestamp
:
df <- createDataFrame(sqlContext,
data.frame(dts=c("2012-07-02 20:14:00", "2015-12-28 00:10:00")))
dfWithTimestamp <- withColumn(df, "ts", cast(df$dts, "timestamp"))
printSchema(dfWithTimestamp)
## root
## |-- dts: string (nullable = true)
## |-- ts: timestamp (nullable = true)
head(dfWithTimestamp)
## dts ts
## 1 2012-07-02 20:14:00 2012-07-02 20:14:00
## 2 2015-12-28 00:10:00 2015-12-28 00:10:00