如何检测音频流中特定单词的出现。

时间:2012-09-22 19:05:20

标签: java audio artificial-intelligence neural-network

起初我以为它会像图像识别一样简单。

创建FANN Hopfield网络,而不是使用二进制转换图像训练/馈送它,并使用二进制转换声音为其提供。

但:

  1. 如何将wav转换为二进制字符串(我相信我需要二进制而不是字节 - 我是对的吗?)
  2. 如何使其连续,我的意思是计算来自麦克风的单词/声音的出现次数。
  3. 最好的java库是什么(不是SPHINX或其他语音识别库 - 我想让我的代码语言独立,甚至可以识别自定义声音 - 比如拍手)
  4. 之前我使用FANN进行图像识别,我知道Encog但是可能有更好的东西(或更简单,我实际上并不了解如何使用Encog)和更好的java原生,以便轻松移植到移动设备

1 个答案:

答案 0 :(得分:0)

如果您已经能够使用图像,也许这就是您所需要的: http://code.google.com/p/asperes/

它可以将WAV声音样本转换为BMP图像(频谱图)和任意BMP图像转换为声音(WAV)。

文档说明:

音频光谱仪和重新合成(ASPERES)是一个小型命令行实用程序,可以从声音样本和任意图像的声音生成图像(频谱图)。