Hive Table Schema:
c_date date
c_timestamp timestamp
这是文本表
Hive表数据:
hive> select * from all_datetime_types;
OK
0001-01-01 0001-01-01 00:00:00.000000001
9999-12-31 9999-12-31 23:59:59.999999999
火花工作后获得的csv:
c_date,c_timestamp
0001-01-01 00:00:00.0,0001-01-01 00:00:00.0
9999-12-31 00:00:00.0,9999-12-31 23:59:59.999
的问题:
00:00:00.0
有用的代码:
SparkConf conf = new SparkConf(true).setMaster("yarn-cluster").setAppName("SAMPLE_APP");
SparkContext sc = new SparkContext(conf);
HiveContext hc = new HiveContext(sc);
DataFrame df = hc.table("testdb.all_datetime_types");
df.printSchema();
DataFrameWriter writer = df.repartition(1).write();
writer.format("com.databricks.spark.csv").option("header", "true").save(outputHdfsFile);
我知道dateFormat
选项。但是date
和timestamp
列在Hive中可以有不同的格式。
我可以简单地将所有列转换为String吗?
答案 0 :(得分:0)
您可以使用spark中的timestampFormat
选项指定时间戳格式。
spark.read.option("timestampFormat", "MM/dd/yyyy h:mm:ss a").csv("path")
答案 1 :(得分:0)
Spark支持高达ns的Timestamp精度。您可能可以尝试映射日期和时间戳列,如下所示,
DataFrame df = hiveContext.sql("select from_unixtime(unix_timestamp(date, 'yyyy-MM-dd'),'yyyy-MM-dd'), from_unixtime(unix_timestamp(timestamp, 'yyyy-MM-dd HH:mm:ss.SSSSSS'),'yyyy-MM-dd HH:mm:ss.SSSSSS') from table")