我想学习有关tesseract新字母的培训文件。我想使用win 10(我不会使用linux )-在c#.net应用程序中使用tesseract Nuget-package。
我尝试了jTessBoxEditor,但是它不起作用(注册表中的第一次错误,找不到字体,java问题,text2image无法正常工作...)。编辑器SunnyPage甚至都无法加载图像。
答案 0 :(得分:0)
哪个程序用于分隔字母并创建训练文件?
尝试以下方法:https://github.com/skotz/captcha-breaking-library
或:
OpenCV
OpenCV是用于计算机视觉和图像处理的流行框架。使用OpenCV轻松处理CAPTCHA图像。它具有Python API,因此您可以直接从Python使用它。
凯拉斯
Keras是用Python编写的深度学习框架。它使以最少的编码即可轻松定义,训练和使用深度神经网络。
TensorFlow
TensorFlow是Google的机器学习库。如果您要使用Keras进行编码,但是Keras实际上并没有实现神经网络逻辑本身。相反,它在后台使用Google的TensorFlow库进行繁重的工作。
这涉及对验证码进行暴力破解或在其上运行OCR算法以尝试检测验证码中写入的内容。 如果要实现自己的CAPTHA算法,请查看该摘要:http://cmp.felk.cvut.cz/~cernyad2/TextCaptchaPdf/DESIGNING%20CAPTCHA%20ALGORITHM%20SPLITTING%20AND%20ROTATING.pdf
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.800.3065&rep=rep1&type=pdf