如何通过Google Cloud Speech-to-Text转换后获得音频持续时间

时间:2018-06-15 05:50:52

标签: google-cloud-speech

我在我的项目中使用Google Cloud Speech-to-Text。

问题是我想从定价计算的响应中获取音频的持续时间。

我正在使用nodejs,而这里是我得到的

LongRunningRecognizeMetadata {
  progressPercent: 100,
  startTime:
   Timestamp {
     seconds: Long { low: 1529041397, high: 0, unsigned: false },
     nanos: 352339000 },
  lastUpdateTime:
   Timestamp {
     seconds: Long { low: 1529041404, high: 0, unsigned: false },
     nanos: 505193000 } }

是startTime还是lastUpdateTime是音频的持续时间 或者lastUpdateTime是最后一次转换语音(之后,音频仍在继续,但没有任何内容)?

我可以自己查看,但我无法将startTime和lastUpdateTime的时间转换为日期时间格式。

感谢您的帮助!

2 个答案:

答案 0 :(得分:1)

挖掘documentation我发现了这个:

  

startTime:收到请求的时间。 string(时间戳   格式)

     

lastUpdateTime:最近一次处理更新的时间。串   (时间戳格式)

您可以阅读有关时间戳格式如何工作的说明here

了解这一点,您可以通过多种方式将时间戳转换为日期(使用您自己的代码,使用online calculator等)

答案 1 :(得分:0)

您可以在documentation中看到,定价基于服务成功处理的音频量,四舍五入为15秒。这意味着,如果您请求音频时长为16秒,则您已超出free tier,那么您将被收取30秒的时长,即0.012 USD(用于非视频语音识别)。

总而言之,您将在发送到请求的音频持续时间内向您收费。

有一种方法可以使用WordInfo获取每个已识别单词的持续时间。