将pdf,word文件加载到PIG

时间:2016-08-18 13:20:04

标签: hadoop mapreduce hive apache-pig

我想从Pig hadoop的pdf和word中提取数据。 我正在尝试使用内置存储功能加载文件,但它使用不同的编码。所以我无法处理它。

如何将pdf加载到猪身上。

===========这就是我做的事情=============

REGISTER '/home/itelligence/Desktop/POC/UTF8.jar'; 

A = LOAD'/home/itelligence/Desktop/POC/namecheap-order-17742559.pdf' using TextLoader() AS (line:chararray); (also tried using bytearray)when pig send argument of bytearray to udf does it gets converted to string/chararray

B = FOREACH A GENERATE udfansitoUTF8.AnsiToUTF8(line); 

没有错误,op就是这样的

([B @ 38bcf402)

([B @ 7d37cc67)

([B @ 5a4cbe6a)

udf是

            try
            {
                String str = (String) input.get(0);
                ByteArrayInputStream(str.getBytes("UTF-8"));


                 byte[] convertedBytes = StringUtils.getBytesUsAscii(str);
                 return convertedBytes.toString();

            }
            catch ( Exception uee )
            {
                return "error ";
            }

    }

}

0 个答案:

没有答案