我有100多个手写页面的pdf,我需要将其转换为机器可读文本。到目前为止,我已经尝试过tesseract和一个免费的在线工具,但没有成功。输出似乎是乱七八糟。
tesseract myscan.png out -l eng
我附上了一个示例页面。它包含文本,数学符号(例如,整数符号)和偶尔的图片。
也许我使用tesseract错了?任何人都可以试着从中得到一个不错的输出吗?
答案 0 :(得分:0)
我使用http://www.techsupportalert.com/best-free-ocr-software.htm 注意安装程序试图加载你的其他东西 当它工作时,它只给你复制和粘贴的位。 但是不要急于下载这个,先试试你的。
问题可能不在于软件,它可能是你的输入。
以600 dpi扫描。 尝试增加对比度并锐化图像。字母所在的背景越薄越明确,循环的间隔越清晰,OCR捕获的机会就越大。
这些调整最好在原始扫描软件中进行。 800万像素或更好的相机也可以进行扫描。
扫描后使用GIMP进行调整。