我即将开始使用tesseract,tess4j确切地说,我正在浏览api文档。我没有任何方式可以从网页上阅读。
程序基本上会打开一个只是图像的网页。我希望tess4j从页面读取图像并将其转换为单词。如果tess4j不能这样做是否有任何其他java ocrs会有所帮助,最好不要下载图像?
感谢帮助。
答案 0 :(得分:1)
您可以查看在线演示here,看看这是否是您要实现的目标。
免责声明:我为公司工作。
答案 1 :(得分:0)
阅读和下载是同义词。如果您正在寻找从网页中读取图像而不在网页中打开它,我建议您查看“curl”命令,它在Java中是等效的。使用上述命令获取图像后,可以使用Tesseract进行解析。
答案 2 :(得分:0)
尝试一下:
String imageURL = "<Remote URL of image>";
String result = "";
URL url = new URL(imageURL);
BufferedImage img = ImageIO.read(url);
Tesseract instance = new Tesseract();
instance.setDatapath("<your tessdata path>");
result = instance.doOCR(img);