我听说PDFBox是用于从pdf中读取文本的最佳java库。所以,我下载了pdfbox-1.7.1.jar
,jempbox-1.7.1.jar
和fontbox-1.7.1.jar
(我不确定最后两个是否必要)。我将它们添加到我在Netbeans的项目中。
当我从他们的网站上尝试这个简单的例子时:
Document luceneDocument = LucenePDFDocument.getDocument(something)
它不起作用,因为org.apache.pdfbox.searchengine.lucene
不存在。我也尝试了pdfbox-1.4.0
并且它是一样的。
那么,我在哪里可以找到该类(是否还需要其他任何我不知道的jar?)或者从pdf中读取文本的其他方法是什么?
编辑:我在old mail找到了同样的问题。但线程很旧,解决方法也不起作用。