我正在加载一个带有datetime列和长列的tsv文件:
A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:datetime, userid:long);
DUMP A;
输入的一个示例:
Tue Feb 11 05:02:10 +0000 2014 205291417
输出线:
, 205291417
我该如何正确地做到这一点?
答案 0 :(得分:12)
您希望将日期加载为chararray(日期:chararray),然后可以使用FOREACH GENERATE
以及ToDate
Pig内置函数将其转换为日期时间。
格式字符串基于SimpleDateFormat
A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:chararray, userid:long);
B = FOREACH A GENERATE ToDate(date, '<some format string>') AS date, userid;
DUMP B;