记录发生

时间:2014-01-17 16:06:25

标签: hadoop apache-pig

我有一个包含以下信息的示例文件 Ipaddress,时间

IPADDRESS -1,10-:58

IPADDRESS -1,11-:50

IPADDRESS-1-10:58

IPADDRESS-2,11:50

IPADDRESS -2,10-:58

IPADDRESS -2,10-:58

预期产量应该是 IPADDRESS,时间,计数

IPADDRESS -1,10-:58,2

ipadress -1,11-:50,1

IPADDRESS -2,10-:58,2

IPADDRESS-2,11:50,1

需要此输出才能了解ip在特定时间范围内击中服务器的次数。

,我尝试使用HIVE并能够使用Excel(ODBC)获取报告。但无法在PIG中找到相同的查询。

1 个答案:

答案 0 :(得分:1)

这个脚本将起到魔力:

A = load 'test.txt' AS (ip:chararray, time:chararray);
--DESCRIBE A;
--DUMP A;

B = GROUP A BY (ip, time);
--DESCRIBE B;
--DUMP B;

C = FOREACH B GENERATE group, COUNT(A);
DUMP C;