标签: pdf parsing
我想以编程方式解析pdf文件,查找某些短语并找出每个短语所在的页码。这可能吗(我明白pdf不像文本文件)?是这样,有没有可以提供帮助的图书馆?
答案 0 :(得分:0)
您可以在Apache Lucene project找到的Apache Tika包含PDFBox,它将提取您可以使用它的文本。