我正在尝试编写一个小程序,在用户说话时做出反应。比如让一个圆圈变大或类似的东西。
即时使用此代码访问麦克风,但如何让用户只在用户说话时做出反应?例如当记录的音量大于某个音量时。
TargetDataLine line = null;
AudioFormat format = new AudioFormat(16000, 16, 1, true, true);
DataLine.Info info = new DataLine.Info(TargetDataLine.class, format);
if(! AudioSystem.isLineSupported(info)){
System.out.println("Line is not supported");
}
try{
line = (TargetDataLine) AudioSystem.getLine(info);
line.open();
}catch(LineUnavailableException e){
System.out.println("Failed to get line");
System.exit(-1);
}
ByteArrayOutputStream out = new ByteArrayOutputStream();
int numBytesRead;
byte[] data = new byte[line.getBufferSize() / 5];
// Begin audio capture.
line.start();
int i = 0;
// Here, stopped is a global boolean set by another thread.
while (i<100) {
// Read the next chunk of data from the TargetDataLine.
numBytesRead = line.read(data, 0, data.length);
// Save this chunk of data.
out.write(data, 0, numBytesRead);
i++;
System.out.println(i);
}
答案 0 :(得分:0)
在最后一个while循环中,您正在一个名为“data”的缓冲区变量中收集声音数据。您需要做的是获取这些字节并将它们组合成可用的DSP值。这样做的代码取决于格式。最常见的是16位编码,立体声,小端。在这种情况下,您必须将字节组合成值,其中第一个字节是低位,第二个字节是高位。关于这个主题有几个帖子,详细介绍了如何处理这个问题。
值的范围从-32768到32767(我从内存写入,可能会关闭,但它是短路的范围)。很难说你希望阈值在哪里,因为音量不仅取决于绝对值(越大越大),而是取决于较大值所花费的时间。 “安静”声音可能具有非常大的瞬态。此外,数字与分贝不直接对应,需要转换公式。
所以,有几个问题要处理,但是如果你只是进入while循环并解码“数据”,你可能会得到一些快速和脏的东西“足够好”。