如何计算音频文件中的口语音节数?

时间:2013-11-01 13:00:17

标签: nlp speech-recognition

我有很多音频文件,干净的音频,只有普通话的口语。我需要估计每个文件中有多少个音节。是否有可以估算这些的OS X,Windows或Linux工具?

sample01.wav 15
sample02.wav 8
sample03.wav 5
sample04.wav 1
sample05.wav 18

由于存在许多文件,因此首选命令行或批处理软件,例如:

$ application sample01.wav
15
  • 使用语音到文本的解决方案,然后计算存在的字符数将适合。

4 个答案:

答案 0 :(得分:11)

语音的自动分割是一个活跃的科学领域,这意味着没有一种方法可以完美运作。

2009年,de Jong和Wempe提出了一种使用Praat自动检测人类语音信号中音节的方法。这种方法与人工分割相比较,并且已经在许多第三方科学研究中使用。您可以在他们的科学文章(pdf)中找到该方法的详细描述,以及对先前提出的方法的历史观点。 Praat脚本本身和几个教程可以在专门的网站上找到(www - speechrate)。

您可能还对由Harma开发的另一种分段算法感兴趣,该算法已在Matlab中实现(Harma Syllable Segmentation

答案 1 :(得分:2)

您可以使用共振峰来确定这一点。每个音节应对应一个共振峰。以下是关于共振峰的更多信息:

https://en.wikipedia.org/wiki/Formants

答案 2 :(得分:0)

这可能是你感兴趣的

http://sites.google.com/site/speechrate/

答案 3 :(得分:0)

您的问题需要特别注意和解决语音到文本。 我真的怀疑任何免费的开源库,可以轻松获得并提供服务。

我使用了一个但是用于反向目的"文本到语音"。 虽然这不是一个免费的图书馆,但我很乐意帮助谷歌和#34; annosoft lipsync" ...

http://www.annosoft.com/lipsync-sdks

此库也可用于SDK评估....