我想知道是否有人录制了其他人的声音,他们是否可以使用说话人识别API的录音来假装他们是那个人。即Speak Recognition API可识别语音是否有效或录制?
答案 0 :(得分:1)
有趣的问题。我无法提供您所提到的Microsoft技术的具体答案,但我可以做一些可能仍然适用的一般性评论:
首先,任何技术系统都只能通过......录音来“聆听”人声,因为它没有耳朵。所以真正的问题是,它能区分人声的现场录音和预先录制的人声录音吗?基本上,这类似于逆转Turing test,机器试图确定它是在处理机器还是人类。
即使我们暂时忽略这个非常根本的问题,我怀疑任何人工智能都可能难以区分“现场谈话”和“录音”。这对人类来说很容易,因为......
出于区分生活和娱乐的原因电信的回放变得越来越困难(曾经把一个应答机与一个真正的人类混淆了吗?),但是
AI不能使用这种对人的隐性知识。他们的地方。
AI 可能像人类一样做的一件事就是试图打断对方,看看对方是否停止说话。如果对方根本没有反应,则可能是录音(应答机再次出现问题)。虽然这显然不是一个万无一失的考验。我们回到了反向图灵试水中。
P.S。如果,在试图回答这个问题的过程中,你发明了ELIZA的声学反转版,试图弄清楚她的病人是否是人,我将自己作为一个测试对象。这将是一个邪恶有趣的实验。
答案 1 :(得分:0)
是的,当然我们可以通过Speaker Recognition API来实现。我已经做到了,它的工作正常。我使用js捕获实时音频流,然后在我编码的自定义webapi的帮助下将其发送到扬声器api。
主要由3个步骤组成,
这是Speaker Recognition API的主要概念,如果你转发看看我可以帮助你的实现。
答案 2 :(得分:0)
Speaker Recognition API目前不区分现场和录制的音频,但团队正在调查。