自由时间戳音频转录(语音到文本)?

时间:2013-03-23 17:57:24

标签: speech-recognition

是否有任何免费服务/程序可以将音频转录为文本 并保留时间戳?

我想转录:

This is the demo link of VoiceBase

(419名骗子之间的16米谈话;诈骗者说话 沉重的口音,所以我不是在抱怨质量 转录)。

Voicebase会转录它,但转录只是一个块 测试,并没有带时间戳。

我还尝试了Google语音“技巧”(将文件记录到语音邮件中) 并让谷歌一次3分钟转录它,但是,再一次, 转录是单个文本块,没有时间戳。

我知道Sphinx,但无法让它发挥作用。

我意识到我可以使用字幕编辑器来创建手动记录, 但我正在寻找一种自动化解决方案。

理想情况下,我想带一个带时间戳的机器转录并手动编辑它。

3 个答案:

答案 0 :(得分:5)

CMUSphinx可以做到这一点,只需从源代码运行Aligner demo。最新的sphinx4教程可用in sphinx4 tutorial。 2014年夏天,CMUSphinx在sphinx4主干中集成了long audio alignment功能。

这是完全错误的,但与语音库不同,它至少捕获了一些单词。可能手动转录它以及稍后分配时间会更容易。 CMUSphinx也可以通过音频到文本对齐来实现这一目标。

由于重音和短音会导致解码精度存在很多问题,但您也有责任。例如,你永远不应该将8khz bandwith的电话音频转换为mp3。这种转换大大降低了自动语音识别的准确性和整体记录质量。您可以使用其他面向语音的无损编解码器进行压缩。

其他question讨论该主题,列出了一些建议。

答案 1 :(得分:0)

在Google中搜索时,您将获得一长串由市场专业人士提供支持的转录软件。例如:

  1. Express Scribe
  2. EureScribe
  3. InqScribe
  4. 但使用自动化软件时出现的问题是它无法提供我们需要的确切结果。因此,如果您在使用这些软件时仍然遇到任何问题,那么您可以聘请转录来简化您的工作。

答案 2 :(得分:0)

一个名为Speechlogger(https://speechlogger.appspot.com)的新软件(chrome web-app)正是为此而制作的。它会保留时间戳,并允许您导出到srt (captions) format

它应该是最好的技术,因为它使用谷歌的语音识别引擎。 它还会自动标点(基于简单的单词内容和结构)。