我正在尝试将PDF预先处理为OCR的TIF图像。在命令行上,我可以使用以下ImageMagick命令将PDF转换为TIF来完成此操作:
$ convert -density 300 /path/to/my/document.pdf -depth 8 -strip -background white -alpha off file.tiff
如何在Java中获得等效结果?我目前可以使用tess4j将PDF转换为TIF,但是如何重新缩放和预处理生成的tif?哪些图书馆可以让我快速轻松地做到这一点?
答案 0 :(得分:0)
弄清楚了。我没有尝试学习另一个图像预处理库,而是使用im4java来扭曲IM命令行,然后将命令直接转换为以下内容:
ConvertCmd cmd = new ConvertCmd();
IMOperation op = new IMOperation();
op.addImage(imagePath);
op.density(300);
op.depth(8);
op.strip();
op.background("white");
op.alpha("off");
try {
cmd.run(op);
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
} catch (IM4JavaException e) {
e.printStackTrace();
}