OCR文本+标记

时间:2012-02-04 23:17:51

标签: ocr

是否有免费的OCR库可以提取文本以及检测文本上的某些标记?我意识到这是一个非常模糊的命题,这种功能在很大程度上取决于我想要检测的“标记”类型。

但据我所知,即使存在这样的事情,除了一些声称将扫描页面转换为可编辑文件同时保留原始页面布局的一些外观的商业软件包。我正在寻找一个我编程的图书馆。

我对这种图书馆的具体应用是这样的:

  1. 打印页面。
  2. 使用铅笔在关键词下划线。
  3. 扫描页面。
  4. 运行程序,将扫描的页面图像转换为某种文本格式,标记每个带下划线的单词。例如,一个RTF文件,其中每个带铅笔下划线的单词都用粗体显示。

1 个答案:

答案 0 :(得分:0)

最好的免费OCR工具可能仍然是Tesseract。您必须自己修改代码以识别标记相对于扫描文本的位置。

几年前,当我上次检查好的,免费的OCR图书馆时,他们很瘦。即使是封闭的源代码产品通常也不值得打扰,除非你想在上面花上$$$。