应用错误收集

我有一个视频数据集，人们随机说出0-9的数字。我的目标是在语音的音频/视觉模式上训练神经网络。

为了实现我的目标，我首先必须将此视频分析为小视频，其中每个视频包含一次只能说一个数字的人。

一旦我获得了我的个人视频，我在视频中每秒提取10 fps，最后得到视频的连续图像。我使用着名的命令行工具ffmpeg做到了这一点。

然后我使用opencv来提取感兴趣的区域（ROI），在这种情况下是口腔。我后来做了一些研究，发现对我来说，动态语音信息的模型，我必须应用所谓的＆＃34;时间导数＆＃34;在这些图像上。

此外，在从视频中提取图像时，我还以原始光谱图的形式提取了音频信息。我还打算对频谱图进行时间推导，以便随着时间的推移保持频率的动态变化。

我读过关于时间/时间导数的信息，发现它只是时间变化时函数的导数。

我想知道如何使用Python在我的图像和光谱图上应用它，如果有任何可用的Python库可以操纵图像矩阵来随时间推导。