正确加载猪的日期时间

时间:2014-02-26 20:31:04

标签: hadoop apache-pig

我正在加载一个带有datetime列和长列的tsv文件:

A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:datetime, userid:long);
DUMP A;

输入的一个示例:

Tue Feb 11 05:02:10 +0000 2014  205291417

输出线:

, 205291417

我该如何正确地做到这一点?

1 个答案:

答案 0 :(得分:12)

您希望将日期加载为chararray(日期:chararray),然后可以使用FOREACH GENERATE以及ToDate Pig内置函数将其转换为日期时间。

格式字符串基于SimpleDateFormat

A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:chararray, userid:long);
B = FOREACH A GENERATE ToDate(date, '<some format string>') AS date, userid;
DUMP B;