我需要挑选单词&来自大量长音频文件的短语,最终目标是为每个短语的起点和终点生成时间戳。单词和短语是关于需要时间标记的事件的描述和评论。我已经看过对Google的GAudI的引用,但它已经消失了(link)。我已经看到了另一个解决方案(Simple Audio Indexer),但它需要IBM Watson。也许它可以使用Android语音到文本处理器?任何人都可以推荐其他解决方案我更喜欢使用Python接口的解决方案,但Java也是可行的。感谢。
答案 0 :(得分:0)
我花了很多时间试图让Android手机语音识别工作在自由形式模式,但它还没有为黄金时段做好准备。我和其他人还没有找到一种方法来每隔几秒关闭一次哔哔声。
因此,我会录制完整的音频文件并通过索引器运行它们。我发现了一个名为Aeneas的有趣解决方案,但它依赖于一个名为eSpeak的旧包,我无法在OSX上安装它(eSpeak需要对OSX现已锁定的目录的安装权限)。
我接下来继续尝试Simple Audio Indexer(SAI)。在IBM Watson BlueMix上设置帐户非常简单,它们可以为您提供1000分钟的免费STT(语音到文本)时间。 SAI易于安装,易于使用且运行良好。我使用pydub
将我的M4A / AAC文件转换为WAV。我确实遇到了需要IBM支持的问题,他们在两小时内使用运行参数来解决我的问题(需要将inactivity_timeout扩展到超过30秒的默认值)。现在它运作良好。