voice-recognition - 语音匹配api或算法

是否有任何好的api或算法（免费或商业）用于匹配两段语音音频？无需将语音转换为文本。我只想知道两段音频是否说同一个词。该算法应允许两个样本之间的某些速度或幅度变化。例如，一个样本可能比另一个样本更快更响亮。我希望这种算法应该独立于所说的语言。

有些人可能称这种技术为语音标签。它广泛用于汽车免提通话。您可以用您喜欢的任何语言为人名录制语音标签。稍后，你会说同样的话。