我使用谷歌Tesseract引擎python活页夹https://code.google.com/p/python-tesseract/来提取图像中的文本(http://ceoarunachal.nic.in/eci/affidavits/s02/ge/1/KIREN%20RIJIJU/KirenRijiju_SC1.jpg)。我试图让它成千上万的图像数字化。但是Tesseract无法正确提取手写文本,因为它主要是为机器文本设计的。
任何优化当前图像的方法都有助于通过训练数据来提高识别率,还是有其他更好的工具可以做到这一点?