如何使用pdfbox获取pdf中所选文本的字体信息

时间:2018-05-01 04:54:39

标签: java pdf pdfbox text-extraction pdf-parsing

我在pdf中有所选文本的坐标。我正在使用PDFTextStripperByArea添加和提取区域以获取文本信息。

但我想获取所选文字的字体信息。当我使用PDFTextStripperByArea类的getResources()方法时,它返回null。这是示例代码 -

    PDFTextStripperByArea stripper = new PDFTextStripperByArea();
    stripper.setSortByPosition(true);
    Rectangle2D rect = new Rectangle(96, 150, 101, 11);
    stripper.addRegion("selectedText", rect);
    PDPage firstPage = document.getPage(0);
    stripper.extractRegions(firstPage);
    System.out.println(stripper.getTextForRegion("selectedText"));
    PDResources resources = stripper.getResources();
    // gives a null pointer exception for resources object in the below line
    for (COSName fontName : resources.getFontNames())
    {
        PDFont font = resources.getFont(fontName);

        System.out.println(font.getFontDescriptor().getFontName());
        System.out.println(font.getFontDescriptor().getFontFamily());
        System.out.println(font.getFontDescriptor().getFontWeight());
        System.out.println(font.getName());
        System.out.println(font.getSubType());
    }

我做错了什么或有其他方法可以实现这个目标吗?

0 个答案:

没有答案