speech-recognition - 从视频和音频文件中提取语音文本

从视频和音频文件中提取语音文本

时间：2009-11-16 07:33:51

标签： speech-recognition

这样做的最佳库是什么。并且依靠质量很好的依赖。无法用扬声器语音训练系统或使用术语词典来改善结果。

1 个答案:

答案 0 :(得分：3)

在Windows上，您希望使用SAPI界面（Speech API）。有多种实现方式。 Microsoft包括一个免费的Windows。 Dragon NaturallySpeaking是一个非自由的，我在过去看到用于类似的任务（努力）。如果发言者讲得很清楚（而不是相互重叠和打断），缺乏训练就不会那么严重。

但是，你不会得到一个好的成绩单，准确性将足够严重，你得到的只会对索引有用。大词和独特的短语会很好地弹出，特别是如果你创建一个自定义词典（我知道你说你不想这样做）。例如，查找所有提及“Pelosi”和“公共选项”的新闻片段。

从视频和音频文件中提取语音文本
从非结构化文本文件中提取人口统计和联系信息
从SWF视频中获取原始视频和音频转储
从多个文件中随机提取视频帧
将视频字幕与文字转语音同步
ffmpeg：concat视频和音频文件
从视频文件中提取音频
将Mp4或视频文件上传到Google语音到文本API的新“视频”模型
pyav：保存视频和音频以将文件与流hls分开
视频和aufio文件的实际持续时间

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？