Question

我正在使用tess4j来识别图像文件。

Pix pix = Leptonica1.pixRead(image.getPath());
        TessAPI1.TessBaseAPIInit3(tessBaseAPI, tessDataPath, "eng");
        TessAPI1.TessBaseAPISetImage2(tessBaseAPI, pix);
//        TessAPI1.TessBaseAPIProcessPages(tessBaseAPI,image.getPath(),"",0,null);

        PointerByReference pixa = null;
        PointerByReference blockids = null;
        Boxa boxa = TessAPI1.TessBaseAPIGetComponentImages(tessBaseAPI, ITessAPI.TessPageIteratorLevel.RIL_TEXTLINE, 1, pixa, blockids);

对于多页tiff文件，只有TessBaseAPIGetComponentImages（）可以返回第一页中的Boxa信息。如果我使用TessAPI1.TessBaseAPIProcessPages(tessBaseAPI,image.getPath(),"",0,null); 只能返回最后一页信息。那么如何针对多个页面逐页处理已识别的信息呢？

感谢。

如何使用tess4j处理多页pdf文件

0 个答案: