解析pdf并识别短语所在的页面

时间:2009-12-30 03:16:27

标签: pdf parsing

我想以编程方式解析pdf文件,查找某些短语并找出每个短语所在的页码。这可能吗(我明白pdf不像文本文件)?是这样,有没有可以提供帮助的图书馆?

1 个答案:

答案 0 :(得分:0)

您可以在Apache Lucene project找到的Apache Tika包含PDFBox,它将提取您可以使用它的文本。