从扫描的图像中提取文本块信息

时间:2019-03-20 16:21:47

标签: tesseract python-tesseract

我有申请表的图像,该申请表具有以“一个盒子里的一个字母”形式的细节。例如,名称“ Dave Mat”将出现在7个框中(每个字母在单独的框中)。查看示例图片-

https://pancarddownload.in/wp-content/uploads/2018/05/filled-pan-card-application-form.jpg

https://i.ytimg.com/vi/4B0kBROm3J4/maxresdefault.jpg

当前,我在R中使用tesseract包,但无法从文本块中提取信息。我也愿意使用Python提供任何解决方案。

library(tesseract)
text <- tesseract::ocr("C:\\Users\\DELL\\Downloads\\pdftemplate3.jpg")
cat(text)

0 个答案:

没有答案