将图像传递给Tesseract.js OCR

时间:2016-04-26 16:30:15

标签: javascript ocr tesseract

您可以找到我所指的here的Tesseract JS Wrapper。

我们想要实现的目标:

  • 上传打印文档的照片
  • 将该照片转换为文字

到目前为止设置的事情:

  • npm install tesseract.js

这是我们的代码:

HTML

<input id="myFileInput" type="file" accept="image/*;" capture="camera">

<img id="pic" src="rec.jpg">

JS

<script src="http://tenso.rs/tesseract.js"></script>

<script type="text/javascript">

var img = document.getElementById("pic");

Tesseract
  .recognize( img, {
    progress: show_progress} )
  .then( display )

</script>

控制台中发生了什么:

“未捕获的ReferenceError:未定义show_progress”

“你好”,

“主要准备前时间:67毫秒”,

正如您所看到的,我们暂时放弃了照片上传功能,直到我们弄清楚如何让tesseract.js为单个预先提供的jpg工作。最终,我们希望添加此功能。

我们非常感谢任何帮助,我们这样做很有趣,主要是寻求一种简单(但有效)的方法来使用JavaScript进行OCR。如果您有其他建议,请告诉我们!

2 个答案:

答案 0 :(得分:1)

https://github.com/naptha/tesseract.js/blob/a6195ef86d9673cab26120613f53c499b8ec0994/example.htm来看,似乎show_progress必须是一个函数。

Tesseract.recognize(canvas,{
        tessedit_char_blacklist:'e',
        progress: function(e){
            console.log(e)
        }

答案 1 :(得分:0)

这是我的代码:

Tesseract.recognize("https://yoursite/image.jpg", {
    lang: 'ind',
    tessedit_char_blacklist: 'e'
})
.progress(function(message){ console.log(message) })
.then(function(result) { console.log(result) });

progress(function(message){ console.log(message) })放在识别功能之后 它对我来说很完美。