我有一个项目,希望在实时通话中将音频文件连续转换为文本。
实际上,我只能在实时通话中记录被呼叫者的声音,我想识别在实时通话中他讲话的时间。记住,我只是想知道被叫方在说什么,直到他停止说那句话,而不是他在现场通话中已经说过的话。我想使用python或php完成所有这些操作。 Python是更好的选择。有人可以帮我吗?
答案 0 :(得分:0)
您应该可以使用ARI执行此操作。有一个python library for it。这是我的处理方法:
sox
),如果不需要即时结果,可以在通话过程中抄录每段录音。