在使用应用程序图像培训Tesseract时需要帮助

时间:2019-12-19 06:01:51

标签: tesseract

我们正在使用tesseract对我们的应用程序执行操作和验证。但是我们在某些角色方面面临问题。由于我从未尝试过培训,如果有人能帮助您解决这个问题。

有关如何训练应用程序图像的任何链接。 如何准备训练数据。 如果可能的话,如何在Windows中进行培训。

预先感谢

1 个答案:

答案 0 :(得分:0)

tesseract-ocr/tesstrain可以根据图像及其基本事实训练某些字符。

但是,如果要在Windows上运行它,则需要以下工具:

  1. 在计算机上设置Cygwin,并确保已安装weget / bc / make软件包。

  2. 设置python3

  3. tesseract4.0 +及其培训工具

然后您需要更改tesseract-ocr / tesstrain中makefile中的某些位置:

  1. 将TESSDATA更改为计算机中的.traineddata。

  2. 更改WORDLIST_FILE / NUMBERS_FILE / PUNC_FILE的路径:

       WORDLIST_FILE = data/$(MODEL_NAME).wordlist
       NUMBERS_FILE := data/$(MODEL_NAME).numbers
       PUNC_FILE := data/$(MODEL_NAME).punc
  1. langdata_lstm下载.wordlist / .numbers / .punc文件。例如,如果您的语言是英语,则应从langdata_lstm / eng下载。将它们重命名为$(MODEL_NAME).wordlist / $(MODEL_NAME).numbers / $(MODEL_NAME).punc

  2. 找到代码:

    $(ALL_GT): $(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt')

并将其更改为:

    $(ALL_GT): $(wildcard $(GROUND_TRUTH_DIR)/*.gt.txt)
  1. 找到代码:
    $(ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt'))
        @mkdir -p $(OUTPUT_DIR)
        find $(GROUND_TRUTH_DIR) -name '*.lstmf' | python3 shuffle.py $(RANDOM_SEED) > "$@"

并将其更改为:

    $(ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(wildcard $(GROUND_TRUTH_DIR)/*.gt.txt))
        @mkdir -p $(OUTPUT_DIR)
        find $(GROUND_TRUTH_DIR) -name '*.lstmf' -exec echo {} \; | sort -R -o "$@"
  1. 将所有python3更改为python。

然后,您可以按照tesseract-ocr/tesstrain上的说明进行操作。在Github中搜索tesstrain窗口以获取帮助。