Question

我正在为媒体相关工作开发一个Android应用程序。在这个应用程序中，我有一个录制的声音文件，格式为flac（你可以忘记格式，我可以转换它）。声音文件将播放如下.....

I am here my friend <silence> just do it soon

现在，如果我专注于friend这个词。有什么方法可以找出这个单词friend在声音文件中的确切位置吗？例如，如果声音文件长达10秒，那么它应该告诉我单词friend介于0.2 - 0.4秒之间或类似的情况。

有什么想法吗？

Answer 1

我用这个Watson api做了类似的应用程序： https://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/speech-to-text/

将声音转换为文本，然后使用json搜索响应。

    {
  "result_index": 0,
  "results": [
    {
      "final": true,
      "alternatives": [
        {
          "transcript": "hello world",
          "confidence": 0.9,
          "timestamps": [["hello",0.0,1.2],["world",1.2,2.5]],
          "word_confidence": [["hello",0.95],["world",0.866]]
        }
      ]
    }
  ]
}

如何在音频文件中找到特定单词的位置？

1 个答案: