我想从Pig hadoop的pdf和word中提取数据。 我正在尝试使用内置存储功能加载文件,但它使用不同的编码。所以我无法处理它。
如何将pdf加载到猪身上。
===========这就是我做的事情=============
REGISTER '/home/itelligence/Desktop/POC/UTF8.jar';
A = LOAD'/home/itelligence/Desktop/POC/namecheap-order-17742559.pdf' using TextLoader() AS (line:chararray); (also tried using bytearray)when pig send argument of bytearray to udf does it gets converted to string/chararray
B = FOREACH A GENERATE udfansitoUTF8.AnsiToUTF8(line);
没有错误,op就是这样的
([B @ 38bcf402)
([B @ 7d37cc67)
([B @ 5a4cbe6a)
udf是
try
{
String str = (String) input.get(0);
ByteArrayInputStream(str.getBytes("UTF-8"));
byte[] convertedBytes = StringUtils.getBytesUsAscii(str);
return convertedBytes.toString();
}
catch ( Exception uee )
{
return "error ";
}
}
}