我正在尝试从GP读取数据并使用Spark提取到HDFS。我需要一个整数列来对从GP表读取的数据进行分区。 这里的问题是我没有主列或任何具有唯一值的列。在这种情况下,我最依赖的列是timestamp列,可以将其转换为Integer / Long。
“时间戳记”列中的数据以以下格式显示:
select max(last_updated_timestamp) from schema.tablename => 2018-12-13 13:29:55
任何人都可以让我知道如何转换timestamp列(包括毫秒)并从中产生EPOCH值并将其用于我的spark代码吗?
答案 0 :(得分:1)
您可以使用extract(epoch from last_updated_timestamp)
。