我编写了一个读取输入文件的UDF,并将数据分为String和Integer或String和Double。
我的UDF工作正常。我还写了一个Pig Script来在HDFS上使用上面的jar。
现在我希望将此代码与Talend for Big Data集成。 我怎样才能实现这个目标。
UDF中的java代码如下:
package com.test.udf;
import java.io.IOException;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.Tuple;
import org.apache.pig.data.TupleFactory;
public class CheckDataType extends EvalFunc<Tuple> {
@Override
public Tuple exec(Tuple input) throws IOException {
// TODO Auto-generated method stub
String valString = null;
Integer valInt = null;
Double valDouble =null;
String str = (String) input.get(0);
Tuple outputTuple =TupleFactory.getInstance().newTuple(2);
if (str != null){
try{
valInt = Integer.parseInt(str);
outputTuple.set(0, valString);
outputTuple.set(1, valInt);
}
catch(Exception e){
try{
valDouble = Double.parseDouble(str) ;
outputTuple.set(0, valString);
outputTuple.set(1, valDouble);
}
catch(Exception ew){
outputTuple.set(0, str);
outputTuple.set(1, null);
}
}
}
return outputTuple;
}
}
我写的猪脚本如下:
REGISTER 'CONVERT.jar';
data_load = LOAD '/tmp/input/testfile.txt' USING PigStorage(',') AS (col1:chararray, col2:chararray, col3:chararray, col4:chararray, col5:chararray);
data_grp = GROUP data_load BY ($input_col);
data_flatten = FOREACH data_grp GENERATE FLATTEN(com.test.udf.CheckDataType(*));
rmf /tmp/output;
STORE data_flatten INTO '/tmp/output' USING PigStorage(',');
如何将其整合到Talend for Big Data中。
答案 0 :(得分:1)
更新回答:
您需要将猪脚本分成3个组件,PigLoad,PigCode和PigStoreResult并连接它们。 UDF可以作为代码包含在PigLoad组件中,也可以包含在单独的jar中。
可在此处找到分步说明:https://www.evernote.com/l/AJONeXS0_sBNwpDfmPByJSUVS0vmAs04EGM