当我尝试使用模型设置为" zh-CN_BroadbandModel"的STT Java代码时,无法获得预期的结果。
以下是我的示例代码:
public static void main (String[] args) {
SpeechToText service = new SpeechToText();
service.setUsernameAndPassword(USERNAME, PASSWORD);
File file = new File("C:/IBM/Watson/APIs/speech-to-text/test.wav");
Map<String, Object> params = new HashMap<String, Object>();
params.put("audio", file);
params.put("content_type","audio/wav");
params.put("model", "zh-CN_BroadbandModel");
SpeechResults transcript = service.recognize(params);
System.out.println(transcript);
}
SpeechResult如下:
{"results": [{
"final": true,
"alternatives": [
{"transcript": "?? ? ? ? ?? ? ? ? ?? ??? ? ??? ?? ? ? ?? ?? ? ??? ? ?? ? ?? ?? ? ?? ? ?? ? ?? ?? ? "}]}],
"result_index": 0
}
我尝试将模型更改为&#34; en-US_BroadbandModel&#34;,即使使用相同的wav文件,也会返回英文单词(尽管wav是中文)。在这种情况下,我认为&#34;模型&#34;设置确实会影响。
但在回复中,我看到本地是en_US
。
任何设置语言的方式?
答案 0 :(得分:5)
这是Windows中Java使用的控制台输出编码的问题。
Windows上的默认控制台输出编码不是 UTF-8 ,而是CP850。
使用具有显式编码的PrintStream来查看结果。
PrintStream out = new PrintStream(System.out, true, "UTF-8");