这是一个很好的问题,而不是“告诉我代码是什么工作”,而是“我如何在逻辑上处理这种情况”的问题。
简而言之,我通过RTSP从IP摄像机进入视频+音频。
视频和音频被解码并逐帧扫描到单个mp4容器,由不同的线程组成(如下所示)。
问题是由于TimeSpan结束时间和每个视频帧的开始时间缺乏精确度,视频和音频会逐渐变得越来越不同步。
每个视频帧的持续时间应为1 /帧速率= 0.0333667000333667,但它正在使用(即使使用FromTicks()方法),第一帧的开始时间= 0.0,结束时间为0.0333667。
我可以调整29.97的视频解码器帧速率值(它从摄像机的设置声明的帧速率中拉出来),导致视频在音频之前,或者在音频之后滞后 - 这只是制作每个视频mediaBuffer。与音频相比,StartTime和mediaBuffer.EndTime要么太早或太晚。
随着时间的推移,微小的十进制截断最终导致视频和音频不同步 - 录制时间越长,两首曲目越不同步。
我真的不明白为什么会发生这种情况,因为舍入误差在逻辑上不重要。
即使我只有1秒的精度,我每秒只会写一个视频帧,而它在时间线上的位置大致应该是+ - 1秒,这应该是每个渐进帧相同的+ - 1秒到它应该的位置,而不是逐渐增加错位。我想象每个框架看起来都像这样:
[< -------- -1 second -------->确切的预期帧时间< -------- + 1s -------->] -------------------------------------------------- - 记录帧时间--------
我在这里错过了什么吗?
我没做“新帧开始时间=最后帧结束时间,新帧结束时间=新帧开始时间+ 1 /帧速率” - 我实际上在做“新帧开始时间=帧索引 - 1 / framerate,new frame end time = frame index / framerate“。
也就是说,我正在根据它们应该具有的预期时间计算帧开始和结束时间(帧时间=帧位置/帧速率)。
我的代码在做什么:
预计时间----------预计时间----------预计时间 帧时间帧时间帧时间我在数学上理解这个问题,我只是不明白为什么十进制截断证明了这个问题,或者逻辑上知道解决它的最佳解决方案。
如果我实现的内容是“每x帧,使用”(1 /帧速率)+一些“以弥补所有丢失的时间,那么可以将帧匹配到应该的位置,或者只是结果在凌乱的视频?
public void AudioDecoderThreadProc()
{
TimeSpan current = TimeSpan.FromSeconds(0.0);
while (IsRunning)
{
RTPFrame nextFrame = jitter.FindCompleteFrame();
if (nextFrame == null)
{
System.Threading.Thread.Sleep(20);
continue;
}
while (nextFrame.PacketCount > 0 && IsRunning)
{
RTPPacket p = nextFrame.GetNextPacket();
if (sub.ti.MediaCapability.Codec == Codec.G711A || sub.ti.MediaCapability.Codec == Codec.G711U)
{
MediaBuffer<byte> mediaBuffer = new MediaBuffer<byte>(p.DataPointer, 0, (int)p.DataSize);
mediaBuffer.StartTime = current;
mediaBuffer.EndTime = current.Add(TimeSpan.FromSeconds((p.DataSize) / (double)audioDecoder.SampleRate));
current = mediaBuffer.EndTime;
if (SaveToFile == true)
{
WriteMp4Data(mediaBuffer);
}
}
}
}
}
public void VideoDecoderThreadProc()
{
byte[] totalFrame = null;
TimeSpan current = TimeSpan.FromSeconds(0.0);
TimeSpan videoFrame = TimeSpan.FromTicks(3336670);
long frameIndex = 1;
while (IsRunning)
{
if (completedFrames.Count > 50)
{
System.Threading.Thread.Sleep(20);
continue;
}
RTPFrame nextFrame = jitter.FindCompleteFrame();
if (nextFrame == null)
{
System.Threading.Thread.Sleep(20);
continue;
}
if (nextFrame.HasSequenceGaps == true)
{
continue;
}
totalFrame = new byte[nextFrame.TotalPayloadSize * 2];
int offset = 0;
while (nextFrame.PacketCount > 0)
{
byte[] fragFrame = nextFrame.GetAssembledFrame();
if (fragFrame != null)
{
fragFrame.CopyTo(totalFrame, offset);
offset += fragFrame.Length;
}
}
MediaBuffer<byte> mediaBuffer = new MediaBuffer<byte>(
totalFrame,
0,
offset,
TimeSpan.FromTicks(Convert.ToInt64((frameIndex - 1) / mp4TrackInfo.Video.Framerate * 10000000)),
TimeSpan.FromTicks(Convert.ToInt64(frameIndex / mp4TrackInfo.Video.Framerate * 10000000)));
if (SaveToFile == true)
{
WriteMp4Data(mediaBuffer);
}
lock (completedFrames)
{
completedFrames.Add(mediaBuffer);
}
frameIndex++;
}
}
答案 0 :(得分:1)
您应注意以下几点:
不正确的手动帧时间戳。通过手动计算帧持续时间而不是让驱动程序/卡/任何给你帧时间通常是个坏主意。由于可变比特率,内部计算机时序等原因,自己冲压框架几乎总会导致漂移。
精确漂移。在处理以毫秒为单位的帧时间戳时,我遇到漂移,但我的源时间戳以纳秒为单位。这需要我投两个长。
例如,我从directshow获得一个以纳秒为单位的媒体时间,但是我的内部计算需要毫秒单位。这意味着我需要在ns和ms之间进行转换。对我来说,这就是精确损失的地方。我的解决方案是你需要跟踪任何精度损失。
我过去所做的是我有一个正在运行的“timingFraction”计数器。基本上,每当我进行除法时,都会给出帧的基本时间戳(因此帧时间/ NS_PS_MS)。但是,我还将预先计时时间戳的丢弃小数部分添加到定时分数计数器(在c ++中我使用了modf
函数)。现在,如果时间分数是整数,我将剩余的时间分数添加到已转换的时间戳(这是一个整数,因为它被转换为长整数)。基本上,如果你累积了额外的毫秒,请务必将其添加到框架中。通过这种方式,您可以补偿任何精度漂移。
手风琴效果。虽然随着时间的推移,一切都可能正确,但你认为即使在1秒的时间内,事情也应该匹配,但事实并非如此。音频需要完美匹配或听起来很奇怪。这通常的特点是你在正确的时间听到来自一个人的正确音频,但嘴唇没有对齐。随着时间的推移,一切都还不错,但没有什么可以排队的。这是因为您没有在正确的时间渲染帧。有些帧有点太长,有些帧有点太短,所有的一切都加在正确的位置,但没有什么是合适的长度。
现在,如果您的精度已达到100纳秒级别,为什么要遇到这个问题,听起来像是它可能是第1项。我会确认您确定在计算正确的结束时间戳之前继续前进。
我有时也运行测试,总结帧之间的增量,并确保正确添加。流的持续时间内每帧之间的时间总和应等于流式传输的时间。即帧1长33毫秒,帧2长34毫秒,记录67毫秒。如果你录制了70毫秒,你就失去了某些东西。漂移通常在几个小时后出现,并且在将音频和视频匹配在一起时更容易通过耳/眼检测。
另外,为了反驳汉斯的评论,音频工程界对此有很多话要说。 10毫秒足以听到延迟,特别是与视频反馈配对时。您可能无法看到10毫秒的延迟,但您肯定能听到它。来自http://helpx.adobe.com/audition/kb/troubleshoot-recording-playback-monitoring-audition.html
适用于延迟时间的一般准则
小于10毫秒 - 允许实时监控传入的音轨,包括效果。
在10毫秒时 - 可以检测到延迟,但仍然听起来很自然并可用于监控。
11-20毫秒 - 监控开始变得无法使用,涂抹实际声源,&gt;监控输出显而易见。
20-30 ms - 延迟声音开始听起来像实际延迟而不是原始信号的分量。
我在这里有点肆虐,但有很多事情在起作用。
答案 1 :(得分:1)
有一点是你的帧率计算错误。
每个视频帧的持续时间应为1 /帧速率= 0.0333667000333667
使用29.97
作为帧率时的情况。 29.97仅仅是显示值。实际帧率为30 / 1.001 = 29.97002997002997
FPS。因此,一帧持续1 / (30 / 1.001) = 0.0333666666666667
秒。 Source,请参阅&#39; 60i&#39;。