如何从PDF图像中提取文本

时间:2018-05-12 23:00:46

标签: java pdf ocr tesseract tess4j

我想从PDF中提取包含图像的数据,图像是字母在小方框内的形式,例如requestMarketData,这里每个单词都在方框内。

我尝试过tesseract OCR无法获得理想的结果。

我尝试过商用ABBYY,但我想使用基于java的免费API。

下面是

的例子 enter image description here

4 个答案:

答案 0 :(得分:1)

Nicomsoft OCR SDK是一个免费的SDK,它从我的PDF中提取了文本,结果令人满意

它支持真正的大型技术,现在我正在尝试将其集成到我的应用程序中

链接https://www.nicomsoft.com/

答案 1 :(得分:0)

就OCR免费而言,Tesseract就像它一样好。

或者你可以查看Windows 10 UWP OCR offering

答案 2 :(得分:0)

如果可以使用online ocr,则可以尝试free ocr.space ocr api

这是一个使用此API的Java示例应用程序:

https://github.com/bsuhas/OCRTextRecognitionAndroidApp/blob/be7bb24a0e880cf174de9f16047fcb1b8c7447c6/app/src/main/java/com/ocrtextrecognitionapp/OCRAsyncTask.java

请注意,ocr.space api虽然好又可靠,但不如Abbyy好。 Abbyy显然是我所知道的市场上最好的OCR。没有其他ocr软件可以做到这一点。

答案 3 :(得分:0)

我不确定那里有免费的,但你绝对可以尝试TotalPDFConverterOCR

它有很多东西,比如转换为doc,图像等。