我正在尝试将服务器设置为使用SocketIO
从客户端浏览器接收音频,然后通过Google语音转文本处理它,最后以文本回复给客户端。
最初,理想情况下,我想设置为类似于此页面上的工具的功能:https://cloud.google.com/speech-to-text/
我尝试使用getUserMedia
并将其通过SocketIO-Stream
进行流传输,但是我不知道如何“传送” MediaStream
。
相反,现在我决定在客户端上使用MediaRecorder
,然后将数据作为blob一起发送(见此example)。
然后我将toString('base64')
应用于Blob,并在Blob上调用google-cloud / speech的client.recognize()
。
客户端(我正在使用VueJS)
new Vue({
el: '#app',
data: function () {
return ({
msgs: [],
socket: null,
recorder: null,
: []
})
},
mounted: function () {
this.socket = io.connect('localhost:3000/user');
console.log('Connected!')
this.socket.on('text', function (text) {
this.msgs.push(text)
})
},
methods: {
startRecording: function () {
if (this.recorder && this.recorder.state == 'recording') {
console.log("Stopping!")
this.recorder.stop()
} else {
console.log("Starting!")
navigator.mediaDevices.getUserMedia({ audio: true, video: false })
.then(this.handleSuccess);
}
},
handleSuccess: function (stream) {
this.recorder = new MediaRecorder(stream)
this.recorder.start(10000)
this.recorder.ondataavailable = (e) => {
this.chunks.push(e.data)
console.log(e.data)
}
this.recorder.onstop = (e) => {
const blob = new Blob(this.chunks, { 'type': 'audio/webm; codecs=opus' })
this.socket.emit('audio', blob)
}
}
}
})
服务器端:
const speech = require('@google-cloud/speech');
const client = new speech.SpeechClient();
const io = require('socket.io').listen(3000)
const ss = require('socket.io-stream')
const encoding = 'LINEAR16';
const sampleRateHertz = 16000;
const languageCode = 'en-US';
const audio = {
content: null
}
const config = {
encoding: encoding,
sampleRateHertz: sampleRateHertz,
languageCode: languageCode,
}
async function main() {
const [response] = await client.recognize({
audio: audio,
config: config
})
const transcription = response.results
.map(result => result.alternatives[0].transcript)
.join('\n');
console.log(`Transcription: ${transcription}`);
}
io.of('/user').on('connection', function (socket) {
console.log('Connection made!')
socket.on('audio', function (data) {
audio.content = data.toString('base64')
main().catch(console.error)
});
});
服务器端main()
函数的日志始终为:
“转录:”
-这是空的!
它应该包含发送的音频中的文本。 预先谢谢你!
答案 0 :(得分:2)
Google Text-To-Speech v1p1beta1
API端点现在支持MP3文件。正如O.Jones所说,在MediaRecorder API上方是一个不错的选择,但是现在您只能获取MP3而不是原始PCM数据,我发现很难实现要获取原始PCM的RecordRTC库,因为我遇到了音质和跨浏览器问题。
我的解决方案:在创建Blob时,我使用了mimeType audio/mp3
:const blob = new Blob(chunks, { 'type' : 'audio/mp3' });
然后将Blob转换为base64字符串like in this SO example。然后,当您将API调用发送到Google的“语音转文本” API时,必须指定v1p1beta1
Beta端点,并按照我在下面的cURL请求中所做的那样设置配置。请注意,MediaRecorder的默认采样率为16000Hz。以下是CURL调用示例(您必须指定api键):
curl --location --request POST 'https://speech.googleapis.com/v1p1beta1/speech:recognize?key=yourkey' \
--header 'Content-Type: application/json' \
--data-raw '{
"config": {
"encoding":"MP3",
"sampleRateHertz": 16000,
"languageCode": "en-US"
},
"audio": {
"content":""
}
}'
此外,这对我在Chrome,Firefox和Safari上也有效,但是对于Safari,您必须在“开发”->“实验性功能”->“媒体记录器”中启用MediaRecorder
答案 1 :(得分:0)
您的nodejs应用程序请求处理原始音频数据,该数据以16k个样本/秒('LINEAR16'
)的速率记录为16位有符号整数(16000
)的数组。由于古代电话知识中丢失的原因,这种音频表示形式被称为pulse-code modulation (PCM)。
但是您从客户端代码发送的Blob并非如此。这是内容类型为audio/webm; codecs=opus
的媒体对象。这意味着将使用Opus codec和boxed (multiplexed) in the webm (Matroska, ebml) container format压缩音轨。云文本到语音代码试图将其解释为原始音频数据,但失败,举起手并返回空的转录字符串。类似于尝试在文本编辑器中查看二进制文件:只是乱码。
要使文本语音转换与媒体对象一起使用,必须首先从中提取PCM音频。这是在服务器上安装颈部的一个臭名昭著的痛苦。您必须使用ffmpeg。有一个tutorial on it in the text-to-speech documentation。本教程提到了从视频文件中刮除音频。基本上,您的Blob是一个视频文件,其中没有视频轨道,因此可以使用相同的技术。
但是,使用MediaStream browser javascript APIs返回第一种方法会更好。尤其是,您的浏览器代码应使用Web Audio API的元素来截取原始PCM音频数据,并将其发送到您的服务器,或直接从浏览器发送到文本到语音。
解释所有这些超出了StackOverflow答案的范围。这里有一些提示。 How to use web audio api to get raw pcm audio?