我是Tensorflow的初学者,我想用Tensorflow构建一个OCR模型,该模型可以检测草书阿拉伯字体的阿拉伯语单词(即联合阿拉伯语字母)。理想情况下,该模型将能够检测阿拉伯语和英语。请参阅我正在尝试OCR的字典中的页面附加图像。书中的其他页面具有相同的字体和布局,包括英语和阿拉伯语。
我有两个问题:
(1)我是否会在联合/草书阿拉伯文本中训练个别角色,或者我需要整个单词或个别角色的边界框?
(2)是否有其他OCR Tensorflow(或Keras)型号可用于处理草书,特别是阿拉伯语。
答案 0 :(得分:3)
来自Google的OCR引擎Tesseract拥有受过阿拉伯语培训的模型。
点击此处了解详情:https://github.com/tesseract-ocr/tesseract
它支持的语言位于:https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages
阿拉伯数据集位于:https://github.com/tesseract-ocr/tessdata/blob/master/ara.traineddata
希望这有帮助!
答案 1 :(得分:1)