我正在使用网络服务来阅读图像文件并使用Tesseract在其上返回一些文字。
我们知道Tesseract / Tess4j支持以 ISO 639-3 格式输入的语言(即: eng , spa , deu , ara 等...)但我从移动设备获得的语言采用以下格式: en-gb , pt- BR 下,...
我的用户可以使用任何语言并请求图片阅读。
我的问题是:任何人都有任何想法如何解决这个问题?
而且,如果我没有设置任何语言,它是否会猜到/找到图像上的语言?
答案 0 :(得分:5)
我的问题是:任何人都有任何想法如何解决这个问题?
使用类似的东西转换/找到正确的语言
for (Locale locale : Locale.getAvailableLocales()) {
System.out.println("" + locale
+ "; display: " + locale.getDisplayLanguage()
+ "; name: " + locale.getDisplayName()
+ "; lang: " + locale.getLanguage()
+ "; iso3: " + locale.getISO3Language());
}
然后你可以在tess4j中设置它。
而且,如果我没有设置任何语言,它是否猜测/找到图像上的语言?
我认为应该设置默认值,否则会引发错误。 (尚未完成源代码)