智能录音:请求创意

时间:2009-11-12 19:19:41

标签: voice voice-recording

假设您有一个会议室,会议可以在任意即兴的时间举行。您想保留所有会议的录音。为了使其尽可能易于使用,会议参加者不需要采取任何行动,他们只知道当他们在特定房间举行会议时,他们会记录下来。

显然,只是记录不间断会效率低下,因为它会浪费数据存储并且很难筛选出来。

我认为有两种基本方法可以解决这个问题。

  1. 录音只是根据声级阈值开始和停止。
  2. 录制是连续的,但会分成X分钟块。发现不包含任何内容的块将被丢弃。
  3. 我更喜欢第二种方式,因为我认为由于启动较晚或触发失败而丢失数据的风险较小。

    我想在Python中实现,如果可能的话,在Windows上实现。

    实施建议?

    可能值得他们自己提出问题的奖励考虑因素:

    • 用于此目的的最佳音频格式和压缩
    • 任何确定存在多少发言者的方式,假设识别是不现实的

2 个答案:

答案 0 :(得分:1)

我认为你在Python中完全没有这么做。你在谈论对MP3文件进行频率/幅度分析。您必须打开文件并查找卷阈值,然后删除低于该阈值的部分。确定存在多少个扬声器需要非常先进的信号处理。

粗略的谷歌搜索对我来说没有任何帮助。您可能有更好的运气寻找现成的解决方案。

顺便说一句,让录音机全天候运行而不让人们知道可能会有法律上的复杂情况。

答案 1 :(得分:1)

这是其中一个项目,其中将更多地定义路径,以便随时重用。

您可能会发现更容易连续记录并以块的形式保存数据(例如,小时长片)。

格式将取决于您在录制工具和音频处理库中的形式。你甚至可能发现你使用了两个。一种格式,如用于录制和处理的PCM编码WAV,但用于存储的压缩MP3。

获得音频流后,您需要以PCM格式(振幅值列表)访问它。简单的平均方法可能足以检测何时进行对话。典型的调整属性: *触发的平均能量水平 *您需要达到能量水平或以下以确定停止和开始的时间(我建议两个不同的值) *平均分析窗口的大小

至于参加人数,除非你找到一个这样做的图书馆,否则我看不到一个简单的解决方案。我之前使用过语音识别引擎,并且也进行了大量的音频处理,我还没有看到任何“简单”的方法。如果您要查看,请搜索大学进行语音分析研究。您可以找到一些可以修改的原型,为您的软件提供一些线索。