linux - 录制语音识别音频

我刚开始考虑我的新项目是关于tts＆amp; stt（文本到语音和语音到文本），我走过了一些必须解决的棘手问题。

如何录制音频？此时我并不关心语言，我只是感兴趣的是我能够记录几个一起提到的音频块。让我们假设我会说＆＃34; Jarvis打开Light Two＆＃34;然后这应该被保存为＆＃34; whatever.wav＆＃34;，但是如果，我已经说了每个字时间间隔为2秒。然后我的录音软件可以假设第一个单词＆＃34; Jarvis Turn On＆＃34;应该用TensorFlow对其进行分组和处理，之后将使用＆＃34; Light Two＆＃34;处理下一个音频块。这根本不会有任何意义。我有什么其他方法可以记录有意义的音频吗？也许有一个阈值，所以只记录一定量的噪音？
我应该使用哪种语言？整个系统应该作为Linux上的后台进程运行。 TensorFlow还提供广泛的支持语言。我最关心的是C ++或Java。这里的主要问题是如何以连续模式运行软件。因此，当我的服务器开启时，录音软件也应该启动并继续收听并生成我的＆＃34; whatever.wav＆＃34;文件。
是线程和选项还是必要的？录制软件在Linux上作为后台进程运行。它应该只是倾听并将我说出的单词分组为单个＆＃34; whatever.wav＆＃34;文件。更新此文件后，TensorFlow将扫描文件并输出我训练过的文件。我对无限状态机不太熟悉，所以基本上是我的问题吗？

我对这个话题很陌生，所以请耐心等待。

Lg Michael

如何录制音频？我有什么其他方法可以记录有意义的音频吗？也许有一个阈值，所以只记录一定量的噪音？

您以0.1秒的小块录制音频并逐个处理累积结果。检测到关键字后，您将执行操作。无需将结果存储到wav文件中，您可以将所有内容保存在内存中。您可以查看现有软件示例：

我应该使用哪种语言？整个系统应该作为Linux上的后台进程运行。 TensorFlow还提供广泛的支持语言。我最关心的是C ++或Java。

大多数TF开发都是用Python完成的

线程和选项是否必要？录制软件在Linux上作为后台进程运行。

没有必要进行线程处理。当您的软件处理它时，Linux内核会在内部缓冲音频。