如何防止Tesseract在单词中插入额外的空格?

时间:2017-11-15 17:42:44

标签: imagemagick ocr tesseract

我在Tesseract forum已经

上询问了这个问题

通过Tesseract(和ImageMagick),我试图找出这个文本 PDF file

这是我正在处理的PDF部分,它是第7行 PDF:

enter image description here

在本节中,Tesseract在尝试识别时遇到了问题 字符串 CONSTRUCTORA

它看到 CO NSTRUCTO RA

应该看到 CONSTRUCTORA

有人可以为此建议任何可能的修复方法吗?

这是命令行序列:

const byClass = document.getElementsByClassName.bind(document);

if( byClass("row")[1] === byClass("square")[5].parentElement )
  alert("square[6] is in row[1]");

这些是软件版本:

convert -density 600 my_pdf.pdf tmp.tif 
tesseract -l spa tmp.tif stdout > tmp.txt 

1 个答案:

答案 0 :(得分:1)

为了处理PDF文件的不规则字距,Will建议调整文档tosp_min_sane_kn_sp的{​​{1}}周围的参数

设置tosp_min_sane_kn_sp=2.8解决了问题中描述的问题。

新的Tesseract调用如下:

tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt

tosp_min_sane_kn_sp的默认值似乎是1.5。到目前为止,我只测试过大于1.5的值。