我们正在使用tesseract对我们的应用程序执行操作和验证。但是我们在某些角色方面面临问题。由于我从未尝试过培训,如果有人能帮助您解决这个问题。
有关如何训练应用程序图像的任何链接。 如何准备训练数据。 如果可能的话,如何在Windows中进行培训。
预先感谢
答案 0 :(得分:0)
tesseract-ocr/tesstrain可以根据图像及其基本事实训练某些字符。
但是,如果要在Windows上运行它,则需要以下工具:
在计算机上设置Cygwin,并确保已安装weget / bc / make软件包。
设置python3
tesseract4.0 +及其培训工具
然后您需要更改tesseract-ocr / tesstrain中makefile中的某些位置:
将TESSDATA更改为计算机中的.traineddata。
更改WORDLIST_FILE / NUMBERS_FILE / PUNC_FILE的路径:
WORDLIST_FILE = data/$(MODEL_NAME).wordlist
NUMBERS_FILE := data/$(MODEL_NAME).numbers
PUNC_FILE := data/$(MODEL_NAME).punc
从langdata_lstm下载.wordlist / .numbers / .punc文件。例如,如果您的语言是英语,则应从langdata_lstm / eng下载。将它们重命名为$(MODEL_NAME).wordlist / $(MODEL_NAME).numbers / $(MODEL_NAME).punc
找到代码:
$(ALL_GT): $(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt')
并将其更改为:
$(ALL_GT): $(wildcard $(GROUND_TRUTH_DIR)/*.gt.txt)
$(ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt'))
@mkdir -p $(OUTPUT_DIR)
find $(GROUND_TRUTH_DIR) -name '*.lstmf' | python3 shuffle.py $(RANDOM_SEED) > "$@"
并将其更改为:
$(ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(wildcard $(GROUND_TRUTH_DIR)/*.gt.txt))
@mkdir -p $(OUTPUT_DIR)
find $(GROUND_TRUTH_DIR) -name '*.lstmf' -exec echo {} \; | sort -R -o "$@"
然后,您可以按照tesseract-ocr/tesstrain上的说明进行操作。在Github中搜索tesstrain窗口以获取帮助。