我有一个UDF jar,它通过Pig接收String作为输入。这个java文件通过pig运行“硬编码”字符串(如此命令
)B = foreach f generate URL_UDF.mathUDF('stack.overflow');
会给我预期的输出
我的问题是我正在尝试从文本文件中获取信息并使用我的UDF。我加载一个文件,并希望在我已加载到UDF的文件中传递数据。
LoadData = load 'data.csv' using PigStorage(',');
f = foreach LoadData generate $0 as col0, $1 as chararray
$ 1是我需要的列,并且研究数据类型(http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#Data+Types)使用了char数组。
然后我尝试使用以下命令 B = foreach f生成URL_UDF.mathUDF($ 1);
将数据传递到无法说明的jar中
java.lang.ClassCastException: org.apache.pig.data.DataByteArray cannot be cast to java.lang.String
如果有人对此有任何解决办法,那就太棒了。
我正在运行的java代码如下
package URL_UDF;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import org.apache.pig.FilterFunc;
import org.apache.pig.data.Tuple;
import org.apache.pig.EvalFunc;
import org.apache.pig.PigWarning;
import org.apache.pig.data.Tuple;
import org.apache.commons.logging.Log;
import org.apache.*;
public class mathUDF extends EvalFunc<String> {
public String exec(Tuple arg0) throws IOException {
// TODO Auto-generated method stub
try{
String urlToCheck = (String) arg0.get(0);
return urlToCheck;
}catch (Exception e) {
// Throwing an exception will cause the task to fail.
throw new IOException("Something bad happened!", e);
}
}
}
由于
答案 0 :(得分:7)
您可以使用LOAD指定架构,如下所示
LoadData = load 'data.csv' using PigStorage(',') AS (col0: chararray, col1:chararray);
并将col1
传递给UDF。
或者
B = foreach LoadData generate (chararray)$1 AS col1:chararray;
实际上,这是Pig中的一个错误(PIG-2315),将在0.12.1中修复。 foreach中的AS子句无法正常工作。