我有一个包含以下信息的示例文件 Ipaddress,时间
IPADDRESS -1,10-:58
IPADDRESS -1,11-:50
IPADDRESS-1-10:58
IPADDRESS-2,11:50
IPADDRESS -2,10-:58
IPADDRESS -2,10-:58
预期产量应该是 IPADDRESS,时间,计数
IPADDRESS -1,10-:58,2
ipadress -1,11-:50,1
IPADDRESS -2,10-:58,2
IPADDRESS-2,11:50,1
需要此输出才能了解ip在特定时间范围内击中服务器的次数。
,我尝试使用HIVE并能够使用Excel(ODBC)获取报告。但无法在PIG中找到相同的查询。
答案 0 :(得分:1)
这个脚本将起到魔力:
A = load 'test.txt' AS (ip:chararray, time:chararray);
--DESCRIBE A;
--DUMP A;
B = GROUP A BY (ip, time);
--DESCRIBE B;
--DUMP B;
C = FOREACH B GENERATE group, COUNT(A);
DUMP C;