我有一个音频流,我会从中提取单词(语音)。所以例如有audio.wav我会得到001.wav,002.wav,003.wav等,其中每个XXX.wav是一个单词。
我正在寻找一个库或程序来实现它 - 平台并不重要,但我更喜欢开源解决方案。
提前感谢您的帮助。
答案 0 :(得分:2)
Nuance,制作Dragon Naturally Speaking的公司有Software Development Kits个。
Audio Mining套件似乎符合您的要求:
Dragon NaturallySpeaking SDK AudioMining与扬声器无关 语音识别工具包 使100%的索引编制 音频文件中的语音信息。 该技术使用高度准确 语音识别转动音频文件 带有时间戳的XML文本 信息。这可以集成 使用标准的文本搜索产品 可以快速访问特定音频 内容。
言语+元数据远远不是最难实现的。获得语音+元数据后,将单词作为单个音频文件提取为much more straightforward。