如何使用pdfbox库中的PDFMarkedContentExtractor类?

时间:2014-08-26 08:50:13

标签: pdfbox

我使用pdfbox库从任意PDF文件中提取文本。我想知道如何使用这个库从pdf中提取一些特定的文本。

据我了解,我应该使用标记内容功能来执行此任务。 有PDFMarkedContentExtractor类。使用getMarkedContent方法,我可以获得PDMarkedContent个对象,然后,通过使用方法getContents,我可以获得我需要的真实内容。 我是对的吗?

好吧,但是如何指定文档PDFMarkedContentExtractor应该用作源?

1 个答案:

答案 0 :(得分:0)

据我了解,PDFMarkedContentExtract专用于PDF中的标记内容。根据您的评论和描述,我相信您只是想大体上提取文本。如果是这样,我认为您需要使用PDFTextStripper代替。