我想从PDF中提取包含图像的数据,图像是字母在小方框内的形式,例如requestMarketData
,这里每个单词都在方框内。
我尝试过tesseract OCR无法获得理想的结果。
我尝试过商用ABBYY,但我想使用基于java的免费API。
下面是答案 0 :(得分:1)
Nicomsoft OCR SDK是一个免费的SDK,它从我的PDF中提取了文本,结果令人满意
它支持真正的大型技术,现在我正在尝试将其集成到我的应用程序中
答案 1 :(得分:0)
就OCR免费而言,Tesseract就像它一样好。
或者你可以查看Windows 10 UWP OCR offering。
答案 2 :(得分:0)
如果可以使用online ocr,则可以尝试free ocr.space ocr api。
这是一个使用此API的Java示例应用程序:
请注意,ocr.space api虽然好又可靠,但不如Abbyy好。 Abbyy显然是我所知道的市场上最好的OCR。没有其他ocr软件可以做到这一点。
答案 3 :(得分:0)
我不确定那里有免费的,但你绝对可以尝试TotalPDFConverterOCR
它有很多东西,比如转换为doc,图像等。