如何查找Tesseract OCR配置文件中支持的参数

时间:2012-10-22 08:05:25

标签: tesseract

我想知道Tesseract OCR使用的配置文件接受的参数,如何编写配置文件等等。

我在their site上找不到任何关于此的文档。如何确定支持哪些参数及其含义?

3 个答案:

答案 0 :(得分:17)

我在下面的链接中找到了这些说明。它们是关于编写配置文件以及放置它的位置:

  

配置文件是没有BOM的简单文本文件和Unix行尾标记(在Windows上,您可以使用一些高级文本编辑器,例如Notepad ++来实现此目的)。

     

如果使用tesseract可执行文件,这只是改变tesseract参数的方法。

     

配置文件应位于tessdata / configs目录中。看看那些例子。

所有变量的列表以及http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version中每个变量的描述。请注意,它适用于Tesseract 3.02,其他版本可能会有所不同。

修改:如果上述链接失效,还会添加pastebin link

答案 1 :(得分:8)

它只是一个纯文本文件,包含用于Tesseract配置变量的空格分隔的键/值对,每个都在单独的行上;例如:

interactive_display_mode T
tessedit_display_outwords T

在Tesseract tessdata/configs文件夹下有几个标准配置文件 - 例如digits,hocr。

答案 2 :(得分:8)

Tesseract v3.04现在提供命令行选项--print-parameters,因此您可以调用tesseract --print-parameters来获取678(!)可配置参数的列表,默认值和简短描述:

Tesseract parameters:
editor_image_xpos   590 Editor image X Pos
editor_image_ypos   10  Editor image Y Pos
editor_image_menuheight 50  Add to image height for menu bar
editor_image_word_bb_color  7   Word bounding box colour
editor_image_blob_bb_color  4   Blob bounding box colour
editor_image_text_color 2   Correct text colour
...and many, many more