Hive中的时间戳列根据分钟部分进行平板处理

时间:2017-03-23 15:45:41

标签: hive hiveql

我们有大量的csv文件,其中有数百万个数据被推入Hive外部表,方法是将12个文件合并为一个文件,然后将数据提供给机器学习团队。

CSV文件是原始文件,其中包含Phonenumber,Col1,Col2 ..... Created_date。

将12个csv文件合并到一个csv巨大的csv文件中,并加载到Hive外部表中。

所以我们想要获取的字段是Phonenumber,Created_date(Timestamp)

时间戳应写在时间/时间板上,基于hh:mm(不包括日期部分和秒部分)

例如,如果hh:mm落在00:00到00:15,它应该写1,同样如果它落在00:15到00:30,它应该写2 .... 23:45到00: 00会写96。

所以最后的结果应该是这样的 PhoneNo |时隙/板坯 9999999 | 1 8888888 | 23 ...

先谢谢朋友们

Venkat

1 个答案:

答案 0 :(得分:1)

with t as (select timestamp '2017-03-23 22:47:01' as Created_date) 
select (hour(Created_date)*60 + minute(Created_date)) div 15 + 1 
from t
  

92