Watson Speech To Text,Word时间戳与Audio不同步

时间:2017-09-25 11:29:31

标签: ibm-cloud speech-to-text watson

我正在使用以下参数进行语音处理 - timestamps=true&max_alternatives=1&model=en-US_NarrowbandModel&smart_formatting=true'

标题 - 'Content-Type' => 'audio/flac', 'Transfer-Encoding' => 'chunked'

提供audio/flac个文件进行处理,但返回的单词时间边界与音频不同步。

例如。 响应是 - :

  早上我有2个问题请%HESITATION首先如何才能有多少能力

时间戳就像这些 -

[
                            [
                                "take",
                                1409.48,
                                1409.62
                            ],
                            [
                                "a",
                                1409.62,
                                1409.67
                            ],
                            [
                                "morning",
                                1409.67,
                                1410.03
                            ],
                            [
                                "I",
                                1410.06,
                                1410.17
                            ],
                            [
                                "have",
                                1410.17,
                                1410.38
                            ],
                            [
                                "two",
                                1410.41,
                                1410.58
                            ],
                            [
                                "questions",
                                1410.58,
                                1411.05
                            ],
                            [
                                "please",
                                1411.05,
                                1411.42
                            ],
                            [
                                "%HESITATION",
                                1411.42,
                                1411.65
                            ],
                            [
                                "first",
                                1411.65,
                                1412.17
                            ],
                            [
                                "how",
                                1412.33,
                                1412.62
                            ],
                            [
                                "how",
                                1412.65,
                                1412.77
                            ],
                            [
                                "much",
                                1412.77,
                                1413
                            ],
                            [
                                "of",
                                1413,
                                1413.1
                            ],
                            [
                                "the",
                                1413.1,
                                1413.37
                            ],
                            [
                                "ability",
                                1413.37,
                                1413.82
                            ]
                        ]

但在实际的音频中,这些词在不同的时间。 (几秒钟差异)

任何建议??

0 个答案:

没有答案