我想知道Tesseract OCR使用的配置文件接受的参数,如何编写配置文件等等。
我在their site上找不到任何关于此的文档。如何确定支持哪些参数及其含义?
答案 0 :(得分:17)
我在下面的链接中找到了这些说明。它们是关于编写配置文件以及放置它的位置:
配置文件是没有BOM的简单文本文件和Unix行尾标记(在Windows上,您可以使用一些高级文本编辑器,例如Notepad ++来实现此目的)。
如果使用tesseract可执行文件,这只是改变tesseract参数的方法。
配置文件应位于tessdata / configs目录中。看看那些例子。
所有变量的列表以及http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version中每个变量的描述。请注意,它适用于Tesseract 3.02,其他版本可能会有所不同。
修改:如果上述链接失效,还会添加pastebin link。
答案 1 :(得分:8)
它只是一个纯文本文件,包含用于Tesseract配置变量的空格分隔的键/值对,每个都在单独的行上;例如:
interactive_display_mode T
tessedit_display_outwords T
在Tesseract tessdata/configs文件夹下有几个标准配置文件 - 例如digits,hocr。
答案 2 :(得分:8)
Tesseract v3.04现在提供命令行选项--print-parameters
,因此您可以调用tesseract --print-parameters
来获取678(!)可配置参数的列表,默认值和简短描述:
Tesseract parameters:
editor_image_xpos 590 Editor image X Pos
editor_image_ypos 10 Editor image Y Pos
editor_image_menuheight 50 Add to image height for menu bar
editor_image_word_bb_color 7 Word bounding box colour
editor_image_blob_bb_color 4 Blob bounding box colour
editor_image_text_color 2 Correct text colour
...and many, many more