我正在使用Google Cloud Speech来转换长篇叙述音频文件,我需要知道音频文件中每个短语的开始时间。有没有办法用Google Cloud Speech做到这一点?
我目前正在使用transcribe_async.py
。
感谢。
答案 0 :(得分:1)
Google Cloud Speech无法做到这一点。如果该信息对您很重要,您可能需要查看其他ASR系统。我知道,Kaldi和CMU Sphinx等离线非托管ASR系统会为您提供此信息。我不知道托管的ASR系统是否可以提供这些信息。
答案 1 :(得分:1)
您可以通过将enableWordTimeOffsets选项设置为True来获得(aproximated)每个单词的开始和结束时间(从音频轨道的开头):https://cloud.google.com/speech/docs/async-time-offsets。
请注意,成绩单第一个单词的开始时间始终为0,据我所知,每个单词的开始时间对应于前一个单词的结束时间(如果有暂停的话)。