我正在使用以下参数进行语音处理 -
timestamps=true&max_alternatives=1&model=en-US_NarrowbandModel&smart_formatting=true'
,
标题 - 'Content-Type' => 'audio/flac', 'Transfer-Encoding' => 'chunked'
提供audio/flac
个文件进行处理,但返回的单词时间边界与音频不同步。
例如。 响应是 - :
早上我有2个问题请%HESITATION首先如何才能有多少能力
时间戳就像这些 -
[
[
"take",
1409.48,
1409.62
],
[
"a",
1409.62,
1409.67
],
[
"morning",
1409.67,
1410.03
],
[
"I",
1410.06,
1410.17
],
[
"have",
1410.17,
1410.38
],
[
"two",
1410.41,
1410.58
],
[
"questions",
1410.58,
1411.05
],
[
"please",
1411.05,
1411.42
],
[
"%HESITATION",
1411.42,
1411.65
],
[
"first",
1411.65,
1412.17
],
[
"how",
1412.33,
1412.62
],
[
"how",
1412.65,
1412.77
],
[
"much",
1412.77,
1413
],
[
"of",
1413,
1413.1
],
[
"the",
1413.1,
1413.37
],
[
"ability",
1413.37,
1413.82
]
]
但在实际的音频中,这些词在不同的时间。 (几秒钟差异)
任何建议??