无法使用node-tesseract从表单中读取手写文本

时间:2017-03-01 08:22:44

标签: node.js tesseract

我无法使用node-tesseract完全阅读表单。只有表格的打印文本被识别并正确返回,而手写文本会返回一些特殊字符。

我的代码是,

var options = {
            l: 'deu',
            psm: 6,
            env: {
                maxBuffer: 4096 * 4096
            }
        };
        tesseract.process('./server/images/form.jpg', options, function (err,text) {
            if (err) {
                return console.log("An error occured: ", err);
            }
            console.log("Recognized text:");
            console.log(text);
        });

我的input ------> OWNER Brian Dude output------> OW_NER ägga ] )ggé;= ‘

这里,OWNER是在这里提交的一些文本

2 个答案:

答案 0 :(得分:1)

  1. 看看以下文章。两者都是使用Tesseract Training过程进行手写识别的示例。
  2. Tesseract Training for Handwritten Digit Recognition

    Training Tesseract for Roman Font Handwriting

    1. 查看官方的Tesseract培训页面。

    2. 以下链接将指导您完成培训流程,这对我帮助很大。 https://web.archive.org/web/20170820212334/http://www.resolveradiologic.com:80/blog/2013/01/15/training-tesseract

    3. 使用第三方GUI进行Tesseract培训,它将使您的生活更轻松。我推荐tesseract4java和jTessBoxEditor(两者都适用于OS X)

答案 1 :(得分:0)

您可以训练tesseract识别您的手写文字。  请参阅here