我正在尝试OCR简历。我的第一个问题是在OCR之前获取文档的主要块。
由于所有简历都有“可视块”(指专业经验,技能,语言,爱好等等),所以我想知道是否有任何开源解决方案可以将文件“拆分”为“块”无论布局设计如何(我都认为这是AI的工作方式)
谢谢
答案 0 :(得分:0)
首先使用zlib解压缩pdf。 然后,您将能够以可读格式查看pdf-https://web.archive.org/web/20141010035745/http://gnupdf.org/Introduction_to_PDF#A_first_example
pdf格式类似于后记。
还尝试将pdf转换为后记,以查看内容的排列方式。
您可以使用pdf解析器https://blog.didierstevens.com/2008/10/30/pdf-parserpy/
解压缩pdf。也尝试一下-https://gist.github.com/averagesecurityguy/ba8d9ed3c59c1deffbd1390dafa5a3c2
一旦您看到了数据的显示方式=>您就可以开始使用徽标来提取更多含义。