应用错误收集

如何使用pdfbox库中的PDFMarkedContentExtractor类？

时间：2014-08-26 08:50:13

标签： pdfbox

我使用pdfbox库从任意PDF文件中提取文本。我想知道如何使用这个库从pdf中提取一些特定的文本。

据我了解，我应该使用标记内容功能来执行此任务。有PDFMarkedContentExtractor类。使用getMarkedContent方法，我可以获得PDMarkedContent个对象，然后，通过使用方法getContents，我可以获得我需要的真实内容。我是对的吗？

好吧，但是如何指定文档PDFMarkedContentExtractor应该用作源？

1 个答案:

答案 0 :(得分：0)

据我了解，PDFMarkedContentExtract专用于PDF中的标记内容。根据您的评论和描述，我相信您只是想大体上提取文本。如果是这样，我认为您需要使用PDFTextStripper代替。