Tesseract - 空间和标签中的歧义

时间:2013-08-06 19:39:47

标签: ocr tesseract

我有一个tiff文件,其中包含一些由制表符分隔的文本(4个空格)。但是当我从这个tiff图像文件中提取文本时,我总是在两列之间得到一个空格。示例示例:

TIFF IMAGE:
col-a    col-b    col-c

desired output:
col-a    col-b    col-c

but I am getting the following:
col-a col-b col-c

我尝试使用相同格式的多张图片,但结果始终相同。 我该如何解决这个问题?我可以训练tesseract来理解这个吗?

2 个答案:

答案 0 :(得分:6)

经过长时间的研究,我找到了解决方案。 以下是要遵循的步骤

  1. 将您的tesseract升级到3.04

  2. 创建config.txt(在您输入图像文件的目录中创建一个文件)

  3. 在配置文件中定义“ preserve_interword_spaces

  4. 工作后 preserve_interword_spaces 给出0或1。 例如:

  5.   

    preserve_interword_spaces 0

      

    preserve_interword_spaces 1

    1. 测试&干杯!!!

答案 1 :(得分:3)

Tesseract将连续空格压缩为一个空格。您需要修改baseapi.cpp以保留空格。代码更改可以在以下帖子中找到:

https://groups.google.com/forum/#!searchin/tesseract-ocr/spaces/tesseract-ocr/lGBQiryHcrY/wy5a-L9O3i4J

https://groups.google.com/forum/#!searchin/tesseract-ocr/spaces/tesseract-ocr/9nzPrBZ3118/b3W5GtsFPo0J