我有一个视频数据集,人们随机说出0-9的数字。我的目标是在语音的音频/视觉模式上训练神经网络。
为了实现我的目标,我首先必须将此视频分析为小视频,其中每个视频包含一次只能说一个数字的人。
一旦我获得了我的个人视频,我在视频中每秒提取10 fps,最后得到视频的连续图像。我使用着名的命令行工具ffmpeg做到了这一点。
然后我使用opencv来提取感兴趣的区域(ROI),在这种情况下是口腔。我后来做了一些研究,发现对我来说,动态语音信息的模型,我必须应用所谓的"时间导数"在这些图像上。
此外,在从视频中提取图像时,我还以原始光谱图的形式提取了音频信息。我还打算对频谱图进行时间推导,以便随着时间的推移保持频率的动态变化。
我读过关于时间/时间导数的信息,发现它只是时间变化时函数的导数。
我想知道如何使用Python在我的图像和光谱图上应用它,如果有任何可用的Python库可以操纵图像矩阵来随时间推导。