我有一个pig脚本,我们使用帮助UDF进行一些数据操作。
让我们理解一个例子。
data=someoperation;
olddata = newoperation;
Uniondata = UNION data,olddata;
DUMP Uniondata;
所以,这里我使用DUMP来确保执行上述所有语句,而不是将数据流式传输到控制台。我认为执行DUMP的方式会导致与性能相关的问题。在这里,要确保数据和olddata不返回任何形式的UDF。如何在不使用DUMP的情况下确保执行这些语句。
感谢。
答案 0 :(得分:0)
您可以使用ILLUSTRATE运算符来实现此目的。
使用ILLUSTRATE运算符查看数据的转换方式 一系列Pig拉丁语句。 ILLUSTRATE允许您测试您的 小型数据集上的程序,可以缩短周转时间。
所以简单地用ILLUSTRATE替换DUMP。还要对数据集进行采样以用于测试目的。
data=someoperation;
data= SAMPLE data 0.01; --# sample by 1%
olddata = newoperation;
uniondata = UNION data,olddata;
ILLUSTRATE Uniondata;
答案 1 :(得分:0)
使用LIMIT缩小数据大小。
A = operation1;
B = operation2;
A1 = LIMIT A 100;
B1 = LIMIT B 100;
A1B1 = UNION A1,B1;
DUMP A1B1;