是否有API(或任何黑客)访问Mac OS X Mavericks中的增强型听写?

时间:2013-10-25 01:23:18

标签: macos speech-recognition voice-recognition speech-to-text osx-mavericks

我正在尝试找到一种简单的方法将音频文件转录为文本(CMU Sphinx,Julius等对于不了解语音识别,配置语言模型,声学模型等的人来说很难)。

我想知道是否有办法将我的音频文件传输到Mac OS 10.9 Mavericks的“Enhanced Dictation”功能中,该功能允许本地离线语音听写。

当我将耳机插孔中的跳线连接到我的线路时,我觉得自己很聪明,但不幸的是,当你开始口述时,它会使所有其他音频播放静音(有关如何禁用此静音的任何建议都会正确回答我。)

3 个答案:

答案 0 :(得分:3)

我还没有找到直接的方法。但是,您可以使用Soundflower作为解决方法。

例如,您可以在VLC中为您的输出选择Audio-> Audio Device-> Soundflower(2ch)。然后在系统偏好设置 - >听写&语音 - >听写 - > Soundflower(2ch)[下拉麦克风图标下方]。然后你可以在VLC中开始播放,并开始听写听(例如在TextEdit中)你应该看到转录出现。这种方法的缺点是它很慢(仅限于实时播放音频),并且不利于自动化工作流程。

注意:您必须在切换到TextEdit并启动ED之前开始音频播放。

答案 1 :(得分:0)

macOS 10.15(Catalina)中出现了一个API,该API可以访问基础语音系统,并允许从音频文件或设备(包括麦克风)进行转录。由于它也可以从iOS 10开始使用,因此我想它已经移植到了Mac。

它有一些限制。首先,它会将其数据传递到Apple的服务器进行转录,这可能对您很重要(“听写”曾经有设备上的选项,但在Catalina中可能已经消失了?)。可能是因为这样,它以不超过一分钟的时间块处理音频。

有关API,请参见Speech

答案 2 :(得分:-1)

我在Dragon Dictate中使用的解决方法是使用带麦克风的USB耳机。我听我要转录的文件并重复我听到的内容。这是kludgy但工作,也应该与听写合作。如果您可以以较慢的速度将文件播放到耳机中,以便有时间处理您所听到的内容并将其重复清晰,这将非常有用。