标签: voice-recognition
是否有任何好的api或算法(免费或商业)用于匹配两段语音音频?无需将语音转换为文本。我只想知道两段音频是否说同一个词。该算法应允许两个样本之间的某些速度或幅度变化。例如,一个样本可能比另一个样本更快更响亮。我希望这种算法应该独立于所说的语言。
有些人可能称这种技术为语音标签。它广泛用于汽车免提通话。您可以用您喜欢的任何语言为人名录制语音标签。稍后,你会说同样的话。