我使用pdfbox库从任意PDF文件中提取文本。我想知道如何使用这个库从pdf中提取一些特定的文本。
据我了解,我应该使用标记内容功能来执行此任务。
有PDFMarkedContentExtractor
类。使用getMarkedContent
方法,我可以获得PDMarkedContent
个对象,然后,通过使用方法getContents
,我可以获得我需要的真实内容。
我是对的吗?
好吧,但是如何指定文档PDFMarkedContentExtractor
应该用作源?
答案 0 :(得分:0)
据我了解,PDFMarkedContentExtract专用于PDF中的标记内容。根据您的评论和描述,我相信您只是想大体上提取文本。如果是这样,我认为您需要使用PDFTextStripper代替。