我正在训练一种新的语言,这种语言在Google代码中并不存在,而且我正在制作单词列表,但它没有解释列表的内容....我的意思是它是单词列表训练tiff图像还是整个语言中的单词列表?
答案 0 :(得分:2)
来自文档:
Tesseract每种语言最多使用8个字典文件。这些都是可选的,并帮助Tesseract决定不同可能的字符组合的可能性。
有各种各样的词典,你可以在开头忽略它们。
其中一个字典应该包含几乎所有的单词,而其他字典应该包含最流行的单词。其余的包含其他内容。
如果我知道你正在为什么语言创建训练数据,我可以给出一些指示。
但要重申:你不需要其中任何一个。