扬声器识别API能识别语音是否有效或已录制?

时间:2017-04-27 20:37:13

标签: microsoft-cognitive

我想知道是否有人录制了其他人的声音,他们是否可以使用说话人识别API的录音来假装他们是那个人。即Speak Recognition API可识别语音是否有效或录制?

3 个答案:

答案 0 :(得分:1)

有趣的问题。我无法提供您所提到的Microsoft技术的具体答案,但我可以做一些可能仍然适用的一般性评论:

首先,任何技术系统都只能通过......录音来“聆听”人声,因为它没有耳朵。所以真正的问题是,它能区分人声的现场录音和预先录制的人声录音吗?基本上,这类似于逆转Turing test,机器试图确定它是在处理机器还是人类。

即使我们暂时忽略这个非常根本的问题,我怀疑任何人工智能都可能难以区分“现场谈话”和“录音”。这对人类来说很容易,因为......

  • 您所听到的混响特征通常与您所处的位置不匹配;或
  • 声音不够3D;或
  • 声音保真度与声音传输介质通常不匹配。

出于区分生活和娱乐的原因电信的回放变得越来越困难(曾经把一个应答机与一个真正的人类混淆了吗?),但是

  • 如果您知道他们所处的人和/或地点(典型的背景声音),那么它仍然很容易实现。

AI不能使用这种对人的隐性知识。他们的地方。

AI 可能像人类一样做的一件事就是试图打断对方,看看对方是否停止说话。如果对方根本没有反应,则可能是录音(应答机再次出现问题)。虽然这显然不是一个万无一失的考验。我们回到了反向图灵试水中。

P.S。如果,在试图回答这个问题的过程中,你发明了ELIZA的声学反转版,试图弄清楚她的病人是否是人,我将自己作为一个测试对象。这将是一个邪恶有趣的实验。

答案 1 :(得分:0)

是的,当然我们可以通过Speaker Recognition API来实现。我已经做到了,它的工作正常。我使用js捕获实时音频流,然后在我编码的自定义webapi的帮助下将其发送到扬声器api。

主要由3个步骤组成,

  1. 创建个人资料 - 返回唯一的个人资料ID。
  2. Entroll - 将音频控制/上传到配置文件ID,它会存储您的声音          永久样本。
  3. 验证 - 使用之前保存的样本验证当前音频。
  4. 这是Speaker Recognition API的主要概念,如果你转发看看我可以帮助你的实现。

    https://westus.dev.cognitive.microsoft.com/docs/services/563309b6778daf02acc0a508/operations/563309b7778daf06340c9652

答案 2 :(得分:0)

Speaker Recognition API目前不区分现场和录制的音频,但团队正在调查。