Apache PDFBox-无法读取PDF中的所有Web链接

时间:2018-11-23 06:57:06

标签: java pdfbox

我正在尝试从PDF文件提取所有超链接。我正在使用 Apache PDFBox版本2.0.11 。我正在使用以下代码段,但在某些PDF文件中,页面注释的大小为“ 0” 。但是在该特定页面上,可以使用超链接。请从https://drive.google.com/open?id=1GpbPsZr_OvunLBRr2iD5ElkNeKFPaRfy中找到有问题的PDF文件。页码2包含超链接。因此,请检查它并帮助我提取这些超链接。

    PDDocument doc = null;
    doc = PDDocument.load(new File("C:\\Users\\A883\\Desktop\\AEM.01938-18.pdf"));
    for (int i = 0; i < doc.getNumberOfPages(); ++i)
    {
        PDPage page = doc.getPage(i);
        List<?> annots = page.getAnnotations();
        System.out.println("Size of annotations "+annots.size());
        for(Object o:annots){
            if(o instanceof PDAnnotationLink){
                System.out.println("Page "+(i+1)+" contains link.");
            }
        }
    }

0 个答案:

没有答案