我有一个要求,我需要将OCRed pdf的一些矩形部分(最初的PDF已被扫描,因此我们已执行OCR)剪切成图像。
我无法找到任何可以实现此目的的库。所以我分成了两部分。
1. Clip Rectangular part from PDF using iText. The result will be in PDF.
2. Convert clipped PDF into images using pdfBox.
但是在使用pdfBox将剪切的PDF转换为图像的过程中,结果并不像预期的那样。至于例如,如果剪辑的pdf仅包含复选框,则我们无法在JPEG图像中获得复选框。
我在StackOverflow中搜索了所有可能的解决方案但没有成功。
我的代码与Tilman Hausherr here提供的解决方案相同。我也试过this
是否有任何直接的方法可以将上述两个步骤合二为一,或者获得更好的方法将pdf转换为图像。
请不要将其标记为重复,因为即使经过太多搜索,我也无法获得解决方案。