我扫描过没有完全笔直扫描的文档,因此文本没有完全水平定向,即每行可能有10°的斜率。
我的理解是imagemagick中的deskew选项应该解决这个问题,例如
convert skewed_1500.jpeg -deskew 40% skewed_1500_not.jpg
但它对输出文件没有任何明显的影响。
我附加了skewed / skewed_not图像以供比较。
致以最诚挚的问候,
科尔姆
答案 0 :(得分:4)
我会尝试更大的价值,如80%,否则Imagemagick论坛成员有一个可能更好的bash脚本:http://www.fmwconcepts.com/imagemagick/textdeskew/index.php
答案 1 :(得分:1)
官方文档似乎没有解释一个值与另一个值对于阈值的重要性:
答案 2 :(得分:1)
您还可以先让 ImageMagick 将您的 JPG 转换为 PDF (convert input.jpg input.pdf
),然后让 OCRmyPDF 纠正 PDF:
ocrmypdf --deskew --tesseract-timeout=0 input.pdf output.pdf
使用您的示例页面,我会说结果文本是直的:
如 here 所述,--tesseract-timeout=0
禁用光学字符识别。
当然,您也可以对 PDF 进行纠偏并使其可一次性搜索:
ocrmypdf --deskew -l fra input.pdf output.pdf
确保在运行之前安装了 Tesseract 的法语语言包。 Here 是说明。
要去掉 PDF 底部的黑色部分和底部的白色部分,可以使用 pdfcrop
(TeX Live 的常用部分):
# Remove margins at left, top, right, and bottom
pdfcrop --margins '-60 0 -50 -430' output.pdf cropped_output.pdf
经过裁剪和校正的 PDF: