如何在音频文件中找到特定单词的位置?

时间:2016-02-15 11:34:47

标签: android audio media audio-recording flac

我正在为媒体相关工作开发一个Android应用程序。在这个应用程序中,我有一个录制的声音文件,格式为flac(你可以忘记格式,我可以转换它)。声音文件将播放如下.....

I am here my friend <silence> just do it soon

现在,如果我专注于friend这个词。有什么方法可以找出这个单词friend在声音文件中的确切位置吗?例如,如果声音文件长达10秒,那么它应该告诉我单词friend介于0.2 - 0.4秒之间或类似的情况。

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

我用这个Watson api做了类似的应用程序: https://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/speech-to-text/

将声音转换为文本,然后使用json搜索响应。

    {
  "result_index": 0,
  "results": [
    {
      "final": true,
      "alternatives": [
        {
          "transcript": "hello world",
          "confidence": 0.9,
          "timestamps": [["hello",0.0,1.2],["world",1.2,2.5]],
          "word_confidence": [["hello",0.95],["world",0.866]]
        }
      ]
    }
  ]
}