Question

Python中有哪些视频/音频库能够识别视频录制中的某种音频模式？我试图从视频文件中排除录制的开头（跳过特定的音频模式），因此我需要一种方法

从头开始扫描文件
识别音频模式（特定音乐片段始终相同）
从那时开始录制/复制剩余的录像。

视频详情

格式： - 真正的媒体（虽然我可以将其转换为更多内容但不重要）

长度： - 从18到24分钟不等

在一个此类视频上运行媒体信息工具会提供以下详细信息

Video
ID                               : 1
Format                           : RealVideo 4
Codec ID                         : RV40
Codec ID/Info                    : Based on AVC (H.264), Real Player 9
Duration                         : 19mn 18s
Bit rate                         : 195 Kbps
Width                            : 332 pixels
Height                           : 248 pixels
Display aspect ratio             : 4:3
Frame rate                       : 23.976 fps
Bits/(Pixel*Frame)               : 0.099
Stream size                      : 27.0 MiB (84%)

Audio
ID                               : 0
Format                           : Cooker
Codec ID                         : cook
Codec ID/Info                    : Based on G.722.1, Real Player 6
Duration                         : 19mn 20s
Bit rate                         : 32.0 Kbps
Channel(s)                       : 2 channels
Sampling rate                    : 44.1 KHz
Bit depth                        : 16 bits
Stream size                      : 4.43 MiB (14%)

原始问题：

所以有一天，我重新访问了一个动画连续龙球z，并被我所拥有的视频所激怒。每一集都包含大约24分钟，每一集都完整回顾了前一集，结尾音乐总共约6-8分钟。

我注意到，当回顾结束并且视频的新名称出现时，每个视频都有相同的音频。我将此音频录制在一个单独的文件中。

我想问一下python中是否有任何方法我可以通过编码来执行以下操作：=

扫描音频以匹配标题名称的录制音频，以了解实际视频开始的确切时间。
从该点开始保存视频。

我不知道这样做的难度，所以要告诉它是否可能。

如果您能告诉任何图书馆为我提供相关工具并给我一些关于我应该如何继续的提示，我将非常感激。

非常感谢

Answer 1

AFAIK，语音识别（也会将较低级别的功能暴露为两种声音之间的相似性）仅在Python through windows libraries或dragon naturally speaking API中受支持。

找到标记后，您可以使用this或this等外部库根据要求剪切视频。

编辑：谷歌搜索还返回pyofa musicip-libofa acousting fingerprint库{@ 3}}的包装。

python中的视频和音频处理库

1 个答案: