如何使斜杠在HOCR输出(Tesseract OCR)中充当单词分隔符?

时间:2019-07-19 22:51:33

标签: tesseract hocr

有没有办法告诉Tesseract OCR将某些字符当作HOCR输出中的单词分隔符?

例如,假设我有一个有关Scranton / Wilkes-Barre RailRiders的文档,我希望将斜线视为单词分隔符。因此,代替此输出:

<span class='ocrx_word' id='word_1_2' title='bbox 186 324 1201 395; x_wconf 85' lang='eng' dir='ltr'>Scranton/Wilkes-Barre</span>

我需要如下所示的输出(估计有bbox):

<span class='ocrx_word' id='word_1_2' title='bbox 186 324 799 395; x_wconf 85' lang='eng' dir='ltr'>Scranton</span>
<span class='ocrx_word' id='word_1_3' title='bbox 800 324 820 395; x_wconf 85' lang='eng' dir='ltr'>/</span>
<span class='ocrx_word' id='word_1_4' title='bbox 821 324 1201 395; x_wconf 85' lang='eng' dir='ltr'>Wilkes-Barre</span>

我尝试了两种可能的解决方案:

  1. 将“ tessedit_char_blacklist”设置为“ /”。这不起作用,因为Tesseract只是将斜杠更改为小写L。

  2. 将“ chs_trailing_punct1”设置为“)。,;:?!/”(默认字符加斜杠)。这根本没有改变输出。

0 个答案:

没有答案