我想制作语音识别软件,但我不知道从哪里开始,我应该学习和使用哪些工具?我应该使用哪种编程语言?,有哪些步骤:构建这个软件。 任何帮助,欢迎任何链接,任何想法。 我搜索了书籍,但我找不到......
先谢谢
答案 0 :(得分:6)
你没有提到编程语言和平台,所以我会在这里尝试一些。
对于Windows,显而易见的起点是微软自己的Speech SDK。我自己在我的一个应用程序中使用了它,它的设置和使用相对容易。我写的程序是用C ++编写的,但你可以很容易地用另一种语言编写库。
对于Linux,实际上并没有很多解决方案,但您可以查看this列表以了解其中的内容。这些库中的大多数提供C接口,因此可以使用其他语言,如Python或Perl。
在Mac上(我没有经验),NSSpeechRecognizer
interface显然有语音识别功能。该接口当然可以使用Objective-C编程语言。
答案 1 :(得分:0)
有关生物识别验证的一些理论已经到位。
基本上,您希望确保某个语音录制属于某个人,而不是其他任何人。当然,你不能期望做一个“直接匹配” - 比如将一个人的录音说“你好”与一个新的“你好”的录音进行比较 - 声音或声学采样都不是这样的。
你想要的(你的图书馆)要做的是从一个人那里取一个或多个声音样本,并从这些样本中提取各种变量(如语音的“属性”),并确保可以测量这些属性在一个新的录音中,并且非常肯定新的语音样本属于系统中存储的同一个人(“语音生成器”)。
据您了解,该领域正在进行大量研究 - the wikipedia page on Biometrics应该是一个很好的起点。要在语音识别中应用生物识别/统计方法,请查看the wikipedia page on Speaker Recognition。基本上有两种方法 - 识别一个特殊的声音(如给定的数字),或只是听一个说话的声音,并试图提取语音特征,确保声音属于某个人。
我还会指出vocal tract is modelled以及modelling and recognizing intonation for authentication purposes的各种方式的各种模型,并说:如果你出于严肃的目的,不要试图自己这样做没有足够的100 k $才能做到正确。
答案 2 :(得分:0)
您可以使用Microsoft扬声器识别API:https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
在这些API中抽象出了进行语音识别(又称说话人识别)所需的所有操作。您可以同时进行扬声器验证和鉴定。
这是他们的C#& Python SDK:https://github.com/Microsoft/ProjectOxford-ClientSDK/tree/master/SpeakerRecognition
答案 3 :(得分:-3)
中输入“x-webkit-speech”属性即可
仅在您的浏览器支持语音功能时才会显示。
<h1>Enable speech search for your website</h1>
<form method="get">
<input type="text" name="search" size="30" value="<?=$_REQUEST['search']?>" id="search" onspeechchange="$('#search').keyup()" onwebkitspeechchange="$('#search').keyup()" x-webkit-speech="" speech="" />
<input type="submit" value="Search" />
</form>
<?php
if(isset($_REQUEST['search']) && $_REQUEST['search']<>"");
{
echo "<h2>"."You are searching for:";
echo "<i>".$_REQUEST['search']."</i></h2>";
}
?>