标签: machine-learning speech-recognition openvino
我想实现一个python项目,其中输入将是.mp4文件,而输出将是视频的字幕或字幕。约束是使用OpenVINO。我该怎么办?
答案 0 :(得分:1)
mp4是一个容器。我相信当前的OpenVINO语音演示/样本都使用wav文件,因为这是该模型所训练的。
如果您可以使用工具将mp3或音频从mp4容器转换为wav格式,则可能会起作用。
speech rec demo