我有一个tiff文件,其中包含一些由制表符分隔的文本(4个空格)。但是当我从这个tiff图像文件中提取文本时,我总是在两列之间得到一个空格。示例示例:
TIFF IMAGE:
col-a col-b col-c
desired output:
col-a col-b col-c
but I am getting the following:
col-a col-b col-c
我尝试使用相同格式的多张图片,但结果始终相同。 我该如何解决这个问题?我可以训练tesseract来理解这个吗?
答案 0 :(得分:6)
经过长时间的研究,我找到了解决方案。 以下是要遵循的步骤
将您的tesseract升级到3.04
创建config.txt(在您输入图像文件的目录中创建一个文件)
在配置文件中定义“ preserve_interword_spaces ”
工作后 preserve_interword_spaces 给出0或1。 例如:
preserve_interword_spaces 0
或
preserve_interword_spaces 1
答案 1 :(得分:3)
Tesseract将连续空格压缩为一个空格。您需要修改baseapi.cpp
以保留空格。代码更改可以在以下帖子中找到: