我有申请表的图像,该申请表具有以“一个盒子里的一个字母”形式的细节。例如,名称“ Dave Mat”将出现在7个框中(每个字母在单独的框中)。查看示例图片-
https://pancarddownload.in/wp-content/uploads/2018/05/filled-pan-card-application-form.jpg
https://i.ytimg.com/vi/4B0kBROm3J4/maxresdefault.jpg
当前,我在R中使用tesseract
包,但无法从文本块中提取信息。我也愿意使用Python提供任何解决方案。
library(tesseract)
text <- tesseract::ocr("C:\\Users\\DELL\\Downloads\\pdftemplate3.jpg")
cat(text)