microsoft-cognitive - 扬声器识别API能识别语音是否有效或已录制？

时间：2017-04-27 20:37:13

标签： microsoft-cognitive

我想知道是否有人录制了其他人的声音，他们是否可以使用说话人识别API的录音来假装他们是那个人。即Speak Recognition API可识别语音是否有效或录制？

答案 0 :(得分：1)

有趣的问题。我无法提供您所提到的Microsoft技术的具体答案，但我可以做一些可能仍然适用的一般性评论：

首先，任何技术系统都只能通过......录音来“聆听”人声，因为它没有耳朵。所以真正的问题是，它能区分人声的现场录音和预先录制的人声录音吗？基本上，这类似于逆转Turing test，机器试图确定它是在处理机器还是人类。

即使我们暂时忽略这个非常根本的问题，我怀疑任何人工智能都可能难以区分“现场谈话”和“录音”。这对人类来说很容易，因为......

出于区分生活和娱乐的原因电信的回放变得越来越困难（曾经把一个应答机与一个真正的人类混淆了吗？），但是

AI不能使用这种对人的隐性知识。他们的地方。

AI 可能像人类一样做的一件事就是试图打断对方，看看对方是否停止说话。如果对方根本没有反应，则可能是录音（应答机再次出现问题）。虽然这显然不是一个万无一失的考验。我们回到了反向图灵试水中。

P.S。如果，在试图回答这个问题的过程中，你发明了ELIZA的声学反转版，试图弄清楚她的病人是否是人，我将自己作为一个测试对象。这将是一个邪恶有趣的实验。

答案 1 :(得分：0)

是的，当然我们可以通过Speaker Recognition API来实现。我已经做到了，它的工作正常。我使用js捕获实时音频流，然后在我编码的自定义webapi的帮助下将其发送到扬声器api。

主要由3个步骤组成，

这是Speaker Recognition API的主要概念，如果你转发看看我可以帮助你的实现。

答案 2 :(得分：0)

Speaker Recognition API目前不区分现场和录制的音频，但团队正在调查。