我无法使用node-tesseract完全阅读表单。只有表格的打印文本被识别并正确返回,而手写文本会返回一些特殊字符。
我的代码是,
var options = {
l: 'deu',
psm: 6,
env: {
maxBuffer: 4096 * 4096
}
};
tesseract.process('./server/images/form.jpg', options, function (err,text) {
if (err) {
return console.log("An error occured: ", err);
}
console.log("Recognized text:");
console.log(text);
});
我的input ------> OWNER Brian Dude
output------> OW_NER ägga ] )ggé;= ‘
这里,OWNER是在这里提交的一些文本
答案 0 :(得分:1)
Tesseract Training for Handwritten Digit Recognition
Training Tesseract for Roman Font Handwriting
查看官方的Tesseract培训页面。
以下链接将指导您完成培训流程,这对我帮助很大。 https://web.archive.org/web/20170820212334/http://www.resolveradiologic.com:80/blog/2013/01/15/training-tesseract
使用第三方GUI进行Tesseract培训,它将使您的生活更轻松。我推荐tesseract4java和jTessBoxEditor(两者都适用于OS X)
答案 1 :(得分:0)
您可以训练tesseract识别您的手写文字。 请参阅here。