Question

我有100多个手写页面的pdf，我需要将其转换为机器可读文本。到目前为止，我已经尝试过tesseract和一个免费的在线工具，但没有成功。输出似乎是乱七八糟。

tesseract myscan.png out -l eng

我附上了一个示例页面。它包含文本，数学符号（例如，整数符号）和偶尔的图片。

enter image description here

也许我使用tesseract错了？任何人都可以试着从中得到一个不错的输出吗？

Answer 1

我使用http://www.techsupportalert.com/best-free-ocr-software.htm 注意安装程序试图加载你的其他东西当它工作时，它只给你复制和粘贴的位。但是不要急于下载这个，先试试你的。

问题可能不在于软件，它可能是你的输入。

以600 dpi扫描。尝试增加对比度并锐化图像。字母所在的背景越薄越明确，循环的间隔越清晰，OCR捕获的机会就越大。

这些调整最好在原始扫描软件中进行。 800万像素或更好的相机也可以进行扫描。

扫描后使用GIMP进行调整。