Question

我在Tesseract forum已经

上询问了这个问题

通过Tesseract（和ImageMagick），我试图找出这个文本 PDF file

这是我正在处理的PDF部分，它是第7行 PDF：

在本节中，Tesseract在尝试识别时遇到了问题字符串 CONSTRUCTORA 。

它看到 CO NSTRUCTO RA

应该看到 CONSTRUCTORA

有人可以为此建议任何可能的修复方法吗？

这是命令行序列：

const byClass = document.getElementsByClassName.bind(document);

if( byClass("row")[1] === byClass("square")[5].parentElement )
  alert("square[6] is in row[1]");

这些是软件版本：

convert -density 600 my_pdf.pdf tmp.tif 
tesseract -l spa tmp.tif stdout > tmp.txt

Answer 1

为了处理PDF文件的不规则字距，Will建议调整文档tosp_min_sane_kn_sp的{{1}}周围的参数

设置tosp_min_sane_kn_sp=2.8解决了问题中描述的问题。

新的Tesseract调用如下：

tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt

tosp_min_sane_kn_sp的默认值似乎是1.5。到目前为止，我只测试过大于1.5的值。

如何防止Tesseract在单词中插入额外的空格？

1 个答案: