tesseract培训过程中的单词列表是否需要该语言中的所有单词?

时间:2013-01-04 07:36:51

标签: ocr tesseract

我正在训练一种新的语言,这种语言在Google代码中并不存在,而且我正在制作单词列表,但它没有解释列表的内容....我的意思是它是单词列表训练tiff图像还是整个语言中的单词列表?

1 个答案:

答案 0 :(得分:2)

来自文档:

  

Tesseract每种语言最多使用8个字典文件。这些都是可选的,并帮助Tesseract决定不同可能的字符组合的可能性。

有各种各样的词典,你可以在开头忽略它们。

其中一个字典应该包含几乎所有的单词,而其他字典应该包含最流行的单词。其余的包含其他内容。

如果我知道你正在为什么语言创建训练数据,我可以给出一些指示。

但要重申:你不需要其中任何一个。

请参阅the relevant part of the documentation