使用MapReduce将PDF转换为文本。

时间:2016-04-20 13:52:00

标签: mapreduce lucene apache-pig pdfbox apache-tika

我正在尝试使用Mapreduce将PDF转换为文本。请指导我使用Mapreduce执行PDF。

1 个答案:

答案 0 :(得分:0)

如果您知道如何在没有mapreduce的情况下将文本转换为pdf(例如使用python),则可以从pig调用相关的(python)函数。

Pig UDF manual

中描述了如何执行此操作