用于手写数学笔记的OCR工具

时间:2015-02-03 23:16:33

标签: ocr

我有100多个手写页面的pdf,我需要将其转换为机器可读文本。到目前为止,我已经尝试过tesseract和一个免费的在线工具,但没有成功。输出似乎是乱七八糟。

tesseract myscan.png out -l eng

我附上了一个示例页面。它包含文本,数学符号(例如,整数符号)和偶尔的图片。

enter image description here

也许我使用tesseract错了?任何人都可以试着从中得到一个不错的输出吗?

1 个答案:

答案 0 :(得分:0)

我使用http://www.techsupportalert.com/best-free-ocr-software.htm 注意安装程序试图加载你的其他东西 当它工作时,它只给你复制和粘贴的位。 但是不要急于下载这个,先试试你的。

问题可能不在于软件,它可能是你的输入。

以600 dpi扫描。 尝试增加对比度并锐化图像。字母所在的背景越薄越明确,循环的间隔越清晰,OCR捕获的机会就越大。

这些调整最好在原始扫描软件中进行。 800万像素或更好的相机也可以进行扫描。

扫描后使用GIMP进行调整。