所以我现在用python编程了一段时间。我在python中做了一些简单的AI聊天机器人,通过文本进行通信。我想将它提升到一个新的水平,一种个人伴侣AI。我的目标是将它放在覆盆子上(我有一个便携式充电器,麦克风和扬声器与pi兼容)并使其成为离线AI,用于交谈,记笔记,记忆信息等。我想知道一种方式将离线STT和TTS引擎合并到我的python程序中。 (我发现的大多数STT和TTS引擎都是通过谷歌,亚马逊等在线发送的)提前感谢。
答案 0 :(得分:4)
我已检查离线STT。我尝试在下面运行所有这些并查看我的评论。
您可以根据自己的目的查看它们。
<强>在线强>
wit.ai https://wit.ai/ 这可以用于商业产品。
为机器人,应用程序,服务和设备构建品牌独特的自然语言交互。 https://api.ai/ https://docs.api.ai/docs/languages
<强>离线强>
CMUSphinx http://cmusphinx.sourceforge.net CMU Sphinx语音识别引擎。 CMU Sphinx - 语音识别工具包 - 由于资源需求低,可以在移动设备上使用离线语音识别。
https://pypi.python.org/pypi/SpeechRecognition/ https://github.com/Uberi/speech_recognition
eSpeak NG是一款开源语音合成器,支持93种语言和口音。 (支持Chineese) https://github.com/rhdunn/espeak eSpeak是一款紧凑的多语言开源文本到语音合成器。它只读取文本文件和stdin(在控制台行中)。
Microsoft针对通用Windows平台的UWP语音识别 https://docs.microsoft.com/en-us/windows/uwp/input-and-devices/speech-recognition 在Windows运行时应用程序中启用命令和控制的语音识别。
Kaldi是一个用C ++编写的语音识别工具包,并在Apache License v2.0下获得许可。 Kaldi旨在供语音识别研究人员使用。 (支持Chineese) https://github.com/kaldi-asr/kaldi http://kaldi-asr.org/doc/about.html 在Windows上安装期间,我收到错误,无法继续。 此外,这是写在网站上:“请注意,Windows设置已经过时,并没有定期测试,并且目前并没有编译所有代码。”
Tensorflow-speech-recognition https://github.com/pannous/tensorflow-speech-recognition 使用谷歌的张量流深度学习框架,序列到序列神经网络进行语音识别。 它以研究为导向。该项目是从https://github.com/pannous/caffe-speech-recognition
深度讲话https://github.com/mozilla/DeepSpeech 百度DeepSpeech架构的TensorFlow实现 它以研究为导向。
答案 1 :(得分:1)
我发现了另一个。你可以检查
&#34;嘿Athena&#34;是一个100%开源,模块化的语音助手框架。我们的目标是做Siri,Cortana和Echo可以做的所有事情 - 以及更多。你的个人语音助手。用Python编写。
答案 2 :(得分:0)
看看剪辑,我从未使用它,但似乎很棒:snips.ai