我正在为媒体相关工作开发一个Android应用程序。在这个应用程序中,我有一个录制的声音文件,格式为flac
(你可以忘记格式,我可以转换它)。声音文件将播放如下.....
I am here my friend <silence> just do it soon
现在,如果我专注于friend
这个词。有什么方法可以找出这个单词friend
在声音文件中的确切位置吗?例如,如果声音文件长达10秒,那么它应该告诉我单词friend
介于0.2 - 0.4
秒之间或类似的情况。
有什么想法吗?
答案 0 :(得分:1)
我用这个Watson api做了类似的应用程序: https://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/speech-to-text/
将声音转换为文本,然后使用json搜索响应。
{
"result_index": 0,
"results": [
{
"final": true,
"alternatives": [
{
"transcript": "hello world",
"confidence": 0.9,
"timestamps": [["hello",0.0,1.2],["world",1.2,2.5]],
"word_confidence": [["hello",0.95],["world",0.866]]
}
]
}
]
}