Question

我们正在使用tesseract对我们的应用程序执行操作和验证。但是我们在某些角色方面面临问题。由于我从未尝试过培训，如果有人能帮助您解决这个问题。

有关如何训练应用程序图像的任何链接。如何准备训练数据。如果可能的话，如何在Windows中进行培训。

预先感谢

Answer 1

tesseract-ocr/tesstrain可以根据图像及其基本事实训练某些字符。

但是，如果要在Windows上运行它，则需要以下工具：

在计算机上设置Cygwin，并确保已安装weget / bc / make软件包。
设置python3
tesseract4.0 +及其培训工具

然后您需要更改tesseract-ocr / tesstrain中makefile中的某些位置：

将TESSDATA更改为计算机中的.traineddata。
更改WORDLIST_FILE / NUMBERS_FILE / PUNC_FILE的路径：

       WORDLIST_FILE = data/$(MODEL_NAME).wordlist
       NUMBERS_FILE := data/$(MODEL_NAME).numbers
       PUNC_FILE := data/$(MODEL_NAME).punc

从langdata_lstm下载.wordlist / .numbers / .punc文件。例如，如果您的语言是英语，则应从langdata_lstm / eng下载。将它们重命名为$（MODEL_NAME）.wordlist / $（MODEL_NAME）.numbers / $（MODEL_NAME）.punc
找到代码：

    $(ALL_GT): $(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt')

并将其更改为：

    $(ALL_GT): $(wildcard $(GROUND_TRUTH_DIR)/*.gt.txt)

找到代码：

    $(ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt'))
        @mkdir -p $(OUTPUT_DIR)
        find $(GROUND_TRUTH_DIR) -name '*.lstmf' | python3 shuffle.py $(RANDOM_SEED) > "$@"

并将其更改为：

    $(ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(wildcard $(GROUND_TRUTH_DIR)/*.gt.txt))
        @mkdir -p $(OUTPUT_DIR)
        find $(GROUND_TRUTH_DIR) -name '*.lstmf' -exec echo {} \; | sort -R -o "$@"

将所有python3更改为python。

然后，您可以按照tesseract-ocr/tesstrain上的说明进行操作。在Github中搜索tesstrain窗口以获取帮助。

在使用应用程序图像培训Tesseract时需要帮助

1 个答案: