录制语音识别音频

时间:2017-12-28 20:46:13

标签: linux tensorflow audio text-to-speech audio-recording

我刚开始考虑我的新项目是关于tts& stt(文本到语音和语音到文本),我走过了一些必须解决的棘手问题。

  1. 如何录制音频? 此时我并不关心语言,我只是感兴趣的是我能够记录几个一起提到的音频块。让我们假设我会说" Jarvis打开Light Two"然后这应该被保存为" whatever.wav",但是如果,我已经说了每个字时间间隔为2秒。然后我的录音软件可以假设第一个单词" Jarvis Turn On"应该用TensorFlow对其进行分组和处理,之后将使用" Light Two"处理下一个音频块。这根本不会有任何意义。我有什么其他方法可以记录有意义的音频吗?也许有一个阈值,所以只记录一定量的噪音?
  2. 我应该使用哪种语言? 整个系统应该作为Linux上的后台进程运行。 TensorFlow还提供广泛的支持语言。我最关心的是C ++或Java。这里的主要问题是如何以连续模式运行软件。因此,当我的服务器开启时,录音软件也应该启动并继续收听并生成我的" whatever.wav"文件。
  3. 是线程和选项还是必要的? 录制软件在Linux上作为后台进程运行。它应该只是倾听并将我说出的单词分组为单个" whatever.wav"文件。更新此文件后,TensorFlow将扫描文件并输出我训练过的文件。我对无限状态机不太熟悉,所以基本上是我的问题吗?
  4. 我对这个话题很陌生,所以请耐心等待。

    Lg Michael

1 个答案:

答案 0 :(得分:0)

  

如何录制音频?我有什么其他方法可以记录有意义的音频吗?也许有一个阈值,所以只记录一定量的噪音?

您以0.1秒的小块录制音频并逐个处理累积结果。检测到关键字后,您将执行操作。无需将结果存储到wav文件中,您可以将所有内容保存在内存中。您可以查看现有软件示例:

https://github.com/castorini/honk

  

我应该使用哪种语言?整个系统应该作为Linux上的后台进程运行。 TensorFlow还提供广泛的支持语言。我最关心的是C ++或Java。

大多数TF开发都是用Python完成的

  

线程和选项是否必要?录制软件在Linux上作为后台进程运行。

没有必要进行线程处理。当您的软件处理它时,Linux内核会在内部缓冲音频。