猪的DUMP需要很长时间

时间:2016-04-21 04:20:39

标签: hadoop hbase apache-pig

我有一个pig脚本,我们使用帮助UDF进行一些数据操作。

让我们理解一个例子。

data=someoperation;
olddata = newoperation;
Uniondata = UNION data,olddata;
DUMP Uniondata;

所以,这里我使用DUMP来确保执行上述所有语句,而不是将数据流式传输到控制台。我认为执行DUMP的方式会导致与性能相关的问题。在这里,要确保数据和olddata不返回任何形式的UDF。如何在不使用DUMP的情况下确保执行这些语句。

感谢。

2 个答案:

答案 0 :(得分:0)

您可以使用ILLUSTRATE运算符来实现此目的。

  

使用ILLUSTRATE运算符查看数据的转换方式   一系列Pig拉丁语句。 ILLUSTRATE允许您测试您的   小型数据集上的程序,可以缩短周转​​时间。

所以简单地用ILLUSTRATE替换DUMP。还要对数据集进行采样以用于测试目的。

data=someoperation;
data= SAMPLE data 0.01; --# sample by 1%
olddata = newoperation;
uniondata = UNION data,olddata;
ILLUSTRATE Uniondata;

答案 1 :(得分:0)

使用LIMIT缩小数据大小。

A = operation1;
B = operation2;
A1 = LIMIT A 100;
B1 = LIMIT B 100; 
A1B1 = UNION A1,B1;
DUMP A1B1;