Question

我想从Pig hadoop的pdf和word中提取数据。我正在尝试使用内置存储功能加载文件，但它使用不同的编码。所以我无法处理它。

如何将pdf加载到猪身上。

===========这就是我做的事情=============

REGISTER '/home/itelligence/Desktop/POC/UTF8.jar'; 

A = LOAD'/home/itelligence/Desktop/POC/namecheap-order-17742559.pdf' using TextLoader() AS (line:chararray); (also tried using bytearray)when pig send argument of bytearray to udf does it gets converted to string/chararray

B = FOREACH A GENERATE udfansitoUTF8.AnsiToUTF8(line);

没有错误，op就是这样的

（[B @ 38bcf402）

（[B @ 7d37cc67）

（[B @ 5a4cbe6a）

udf是

            try
            {
                String str = (String) input.get(0);
                ByteArrayInputStream(str.getBytes("UTF-8"));


                 byte[] convertedBytes = StringUtils.getBytesUsAscii(str);
                 return convertedBytes.toString();

            }
            catch ( Exception uee )
            {
                return "error ";
            }

    }

}

将pdf，word文件加载到PIG

0 个答案: