如何使用tess4j处理多页pdf文件

时间:2017-09-10 04:25:10

标签: tess4j

我正在使用tess4j来识别图像文件。

Pix pix = Leptonica1.pixRead(image.getPath());
        TessAPI1.TessBaseAPIInit3(tessBaseAPI, tessDataPath, "eng");
        TessAPI1.TessBaseAPISetImage2(tessBaseAPI, pix);
//        TessAPI1.TessBaseAPIProcessPages(tessBaseAPI,image.getPath(),"",0,null);

        PointerByReference pixa = null;
        PointerByReference blockids = null;
        Boxa boxa = TessAPI1.TessBaseAPIGetComponentImages(tessBaseAPI, ITessAPI.TessPageIteratorLevel.RIL_TEXTLINE, 1, pixa, blockids);

对于多页tiff文件,只有TessBaseAPIGetComponentImages()可以返回第一页中的Boxa信息。 如果我使用TessAPI1.TessBaseAPIProcessPages(tessBaseAPI,image.getPath(),"",0,null);  只能返回最后一页信息。 那么如何针对多个页面逐页处理已识别的信息呢?

感谢。

0 个答案:

没有答案