我在Tesseract forum已经
上询问了这个问题通过Tesseract(和ImageMagick),我试图找出这个文本 PDF file
这是我正在处理的PDF部分,它是第7行 PDF:
在本节中,Tesseract在尝试识别时遇到了问题 字符串 CONSTRUCTORA 。
它看到 CO NSTRUCTO RA
应该看到 CONSTRUCTORA
有人可以为此建议任何可能的修复方法吗?
这是命令行序列:
const byClass = document.getElementsByClassName.bind(document);
if( byClass("row")[1] === byClass("square")[5].parentElement )
alert("square[6] is in row[1]");
这些是软件版本:
convert -density 600 my_pdf.pdf tmp.tif
tesseract -l spa tmp.tif stdout > tmp.txt
答案 0 :(得分:1)
为了处理PDF文件的不规则字距,Will建议调整文档tosp_min_sane_kn_sp
的{{1}}周围的参数
设置tosp_min_sane_kn_sp=2.8
解决了问题中描述的问题。
新的Tesseract调用如下:
tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt
tosp_min_sane_kn_sp
的默认值似乎是1.5。到目前为止,我只测试过大于1.5的值。