在Windows中学习训练文件新字母(适用于C#应用)

时间:2019-01-27 18:28:58

标签: tesseract

我想学习有关tesseract新字母的培训文件。我想使用win 10(我不会使用linux )-在c#.net应用程序中使用tesseract Nuget-package。

enter image description here enter image description here enter image description here

我尝试了jTessBoxEditor,但是它不起作用(注册表中的第一次错误,找不到字体,java问题,text2image无法正常工作...)。编辑器SunnyPage甚至都无法加载图像。

  1. 哪个程序用于分隔字母并以Windows用户身份创建训练文件
  2. 我应该使用tesseract还是其他OCR引擎?看起来tesseract对Windows用户不友好
  3. 请为这三个图像发布示例训练文件-如果需要进行预处理(缩放等),则应以编程方式进行(c#.net)

1 个答案:

答案 0 :(得分:0)

哪个程序用于分隔字母并创建训练文件?

尝试以下方法:https://github.com/skotz/captcha-breaking-library

或:

OpenCV

OpenCV是用于计算机视觉和图像处理的流行框架。使用OpenCV轻松处理CAPTCHA图像。它具有Python API,因此您可以直接从Python使用它。

凯拉斯

Keras是用Python编写的深度学习框架。它使以最少的编码即可轻松定义,训练和使用深度神经网络。

TensorFlow

TensorFlow是Google的机器学习库。如果您要使用Keras进行编码,但是Keras实际上并没有实现神经网络逻辑本身。相反,它在后台使用Google的TensorFlow库进行繁重的工作。

这涉及对验证码进行暴力破解或在其上运行OCR算法以尝试检测验证码中写入的内容。 如果要实现自己的CAPTHA算法,请查看该摘要:http://cmp.felk.cvut.cz/~cernyad2/TextCaptchaPdf/DESIGNING%20CAPTCHA%20ALGORITHM%20SPLITTING%20AND%20ROTATING.pdf

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.800.3065&rep=rep1&type=pdf