您好,我从Android的tensoflow开始,我的意思是要识别特定的人在说话,例如检测与人“ A”说话的开始时间,而不是如果人“ A”闭嘴而人“ B”说话会被忽略。
因此,我已经读过doc,但是该示例似乎旨在识别诸如“左”,“右”,“上”之类的特定单词的语音,但并不关注谁是说话的人。
作为一个想法,我已经阅读了提供的演示,TensorFlow带有音频数据库不同的声音以进行建模。如果我可以提供这个特定谈话对象的大文件以识别其讲话怎么办?还是一个疯狂的主意?
编辑:作为起点,我读了this article,它似乎与我的目标有关
我想访问一些代码以包含到我的项目中。谢谢。