在java中使用itext库进行解析时会出现单词

时间:2014-02-17 05:15:55

标签: java parsing itext

        public void renderText(TextRenderInfo renderInfo) {
        text = renderInfo.getText().toLowerCase();
          System.out.println("@   "+text);
        Vector curBaseline = renderInfo.getBaseline().getStartPoint();
        Vector topRight = renderInfo.getAscentLine().getEndPoint();

        Rectangle rect = new Rectangle(curBaseline.get(0), curBaseline.get(1),      topRight.get(0), topRight.get(1));
        float curFontSize = rect.getHeight();
        int size = (int) curFontSize;
        at[i][0] = "" + size;
        at[i++][1] = text;
        //System.out.println(text);
    }

我使用这段代码从pdf中提取单词,但是当我得到像分裂的单词时 安全性 小号 Ë 安全 包含v& e的单词分为2个单词 如何修改代码,以便我可以使用itext库得到确切的单词?

0 个答案:

没有答案