我正在尝试将文件插入到Google云端硬盘中。插入的图像包含中文字符。在OCRing时,图像会像往常一样转换为Google Doc,但没有提取任何文本。
根据文档,您应该使用“ocrLanguage”,其值为ISO 639-1代码。但是没有提到支持哪种语言。
我尝试使用API拒绝的“zh”作为无效值。
我尝试使用旧版Google-Docs API文档中的“zh-Hans”。这样做 不会返回错误但不会发生OCR。
我尝试使用“”而不是OCR。
根据文档,这个参数只是一个提示,如果OCR引擎可以解决这个问题,它将被覆盖。
所以我的问题是:
注意:在浏览器中上传图像时,OCR语言下拉列表包含中文(简体和繁体),此方法成功提取文本。
答案 0 :(得分:0)
我有一个中文OCR的脚本,大约写于2年前。它工作得很好,像这样的代码(使用PHP库):
$ createdFile = $ service-> files-> insert($ file,array( 'data'=> $的数据, 'mimeType'=> '图像/ JPEG', 'ocr'=>真正, 'ocrLanguage'=> 'ZH-汉斯', 'convert'=>真正, ));
现在它不适用于“zh-Hans”,但通常是为“en”语言工作。 等待Google API响应大约需要10-15秒,因此Google试图完成OCR,但Google API似乎存在问题。
支持中文的语言是zh-Hans,zh-Hant as whitten here https://developers.google.com/google-apps/documents-list/(但这是旧文档)。 Web界面OCR html select中的语言是相同的:
中文(简体) 中文(繁体)