应用错误收集

解析pdf并识别短语所在的页面

时间：2009-12-30 03:16:27

标签： pdf parsing

我想以编程方式解析pdf文件，查找某些短语并找出每个短语所在的页码。这可能吗（我明白pdf不像文本文件）？是这样，有没有可以提供帮助的图书馆？

1 个答案:

答案 0 :(得分：0)

您可以在Apache Lucene project找到的Apache Tika包含PDFBox，它将提取您可以使用它的文本。