应用错误收集

我目前正在开发一个涉及使用Tess4j Tesseract OCR引擎的项目。在开展这个项目的过程中，我发现很多网站都说Tesseract在至少300 DPI （每英寸点数）的图像上表现最佳。

我的问题是为什么DPI会多次提到图像。我知道当你扫描一个你要用至少300 DPI扫描它的对象时。我只是想不通为什么这与用相机拍摄的照片有关。据我所知，DPI是打印机的属性。基于此属性，图像越小，质量越高，越高。

现在，如果DPI与这些图像无关，那么我想知道为什么当我在72＆amp;之间更改图像的DPI属性时，我程序的结果会有所不同。 300。是否有我不知道的Tesseract预处理过程？

实际上，它是特定DPI的文本大小。

是否有最小文字大小？（它不会读取屏幕文字！）

有一个最小的文字大小，以确保合理的准确性。你必须   考虑分辨率和点大小。准确度在下面下降   10pt x 300dpi，快速低于8pt x 300dpi。快速检查就算了   角色x高度的像素。（X高是高度   小写x。）在10pt×300dpi时，x高度通常约为   20像素，虽然这可能因字体而异。   低于10像素的x高度，你几乎没有机会   结果准确，低于约8个像素，大部分文字都会   ＆＃34;去除噪音＆＃34;。

https://github.com/tesseract-ocr/tesseract/wiki/FAQ#is-there-a-minimum-text-size-it-wont-read-screen-text

为什么DPI与相机拍摄的OCR图像相关

1 个答案: