假设您有一个会议室,会议可以在任意即兴的时间举行。您想保留所有会议的录音。为了使其尽可能易于使用,会议参加者不需要采取任何行动,他们只知道当他们在特定房间举行会议时,他们会记录下来。
显然,只是记录不间断会效率低下,因为它会浪费数据存储并且很难筛选出来。
我认为有两种基本方法可以解决这个问题。
我更喜欢第二种方式,因为我认为由于启动较晚或触发失败而丢失数据的风险较小。
我想在Python中实现,如果可能的话,在Windows上实现。
实施建议?
可能值得他们自己提出问题的奖励考虑因素:
答案 0 :(得分:1)
我认为你在Python中完全没有这么做。你在谈论对MP3文件进行频率/幅度分析。您必须打开文件并查找卷阈值,然后删除低于该阈值的部分。确定存在多少个扬声器需要非常先进的信号处理。
粗略的谷歌搜索对我来说没有任何帮助。您可能有更好的运气寻找现成的解决方案。
顺便说一句,让录音机全天候运行而不让人们知道可能会有法律上的复杂情况。
答案 1 :(得分:1)
这是其中一个项目,其中将更多地定义路径,以便随时重用。
您可能会发现更容易连续记录并以块的形式保存数据(例如,小时长片)。
格式将取决于您在录制工具和音频处理库中的形式。你甚至可能发现你使用了两个。一种格式,如用于录制和处理的PCM编码WAV,但用于存储的压缩MP3。
获得音频流后,您需要以PCM格式(振幅值列表)访问它。简单的平均方法可能足以检测何时进行对话。典型的调整属性: *触发的平均能量水平 *您需要达到能量水平或以下以确定停止和开始的时间(我建议两个不同的值) *平均分析窗口的大小
至于参加人数,除非你找到一个这样做的图书馆,否则我看不到一个简单的解决方案。我之前使用过语音识别引擎,并且也进行了大量的音频处理,我还没有看到任何“简单”的方法。如果您要查看,请搜索大学进行语音分析研究。您可以找到一些可以修改的原型,为您的软件提供一些线索。