Question

我在我的项目中使用Google Cloud Speech-to-Text。

问题是我想从定价计算的响应中获取音频的持续时间。

我正在使用nodejs，而这里是我得到的

LongRunningRecognizeMetadata {
  progressPercent: 100,
  startTime:
   Timestamp {
     seconds: Long { low: 1529041397, high: 0, unsigned: false },
     nanos: 352339000 },
  lastUpdateTime:
   Timestamp {
     seconds: Long { low: 1529041404, high: 0, unsigned: false },
     nanos: 505193000 } }

是startTime还是lastUpdateTime是音频的持续时间或者lastUpdateTime是最后一次转换语音（之后，音频仍在继续，但没有任何内容）？

我可以自己查看，但我无法将startTime和lastUpdateTime的时间转换为日期时间格式。

感谢您的帮助！

Answer 1

挖掘documentation我发现了这个：

startTime：收到请求的时间。 string（时间戳   格式）

lastUpdateTime：最近一次处理更新的时间。串   （时间戳格式）

您可以阅读有关时间戳格式如何工作的说明here。

了解这一点，您可以通过多种方式将时间戳转换为日期（使用您自己的代码，使用online calculator等）

Answer 2

您可以在documentation中看到，定价基于服务成功处理的音频量，四舍五入为15秒。这意味着，如果您请求音频时长为16秒，则您已超出free tier，那么您将被收取30秒的时长，即0.012 USD（用于非视频语音识别）。

总而言之，您将在发送到请求的音频持续时间内向您收费。

有一种方法可以使用WordInfo获取每个已识别单词的持续时间。

如何通过Google Cloud Speech-to-Text转换后获得音频持续时间

2 个答案: