我正在运行tesseract,以便在区分分号和逗号的重要环境中从pdf文件中提取文本。我发现在OCR之后,冒号常常显示为逗号。准确性非常好。我正在寻找有关如何提高分号与逗号检测准确性的建议。根据{{3}}建议,我的程序是首先使用pdpdoppm从Xpdf将多页pdf文件转换为ppm文件,然后使用imagemagick将其转换为tif,然后在.tif文件上运行tesseract。我已将ppm文件的分辨率设置为1000 DPI并在imagemagick中使用-sharpen
选项以提高分辨率,但似乎都没有改善分号识别。有关预处理图像文件的任何建议,还是只是一个艰难的攀登小山?