如何逐帧录制视频时如何处理C#.NET TimeSpan逐行舍入错误?

时间:2013-01-21 15:59:25

标签: c# .net video media recording

这是一个很好的问题,而不是“告诉我代码是什么工作”,而是“我如何在逻辑上处理这种情况”的问题。

简而言之,我通过RTSP从IP摄像机进入视频+音频。

视频和音频被解码并逐帧扫描到单个mp4容器,由不同的线程组成(如下所示)。

问题是由于TimeSpan结束时间和每个视频帧的开始时间缺乏精确度,视频和音频会逐渐变得越来越不同步。

每个视频帧的持续时间应为1 /帧速率= 0.0333667000333667,但它正在使用(即使使用FromTicks()方法),第一帧的开始时间= 0.0,结束时间为0.0333667。

我可以调整29.97的视频解码器帧速率值(它从摄像机的设置声明的帧速率中拉出来),导致视频在音频之前,或者在音频之后滞后 - 这只是制作每个视频mediaBuffer。与音频相比,StartTime和mediaBuffer.EndTime要么太早或太晚。

随着时间的推移,微小的十进制截断最终导致视频和音频不同步 - 录制时间越长,两首曲目越不同步。

我真的不明白为什么会发生这种情况,因为舍入误差在逻辑上不重要。

即使我只有1秒的精度,我每秒只会写一个视频帧,而它在时间线上的位置大致应该是+ - 1秒,这应该是每个渐进帧相同的+ - 1秒到它应该的位置,而不是逐渐增加错位。我想象每个框架看起来都像这样:

[< -------- -1 second -------->确切的预期帧时间< -------- + 1s -------->] -------------------------------------------------- - 记录帧时间--------

我在这里错过了什么吗?

我没做“新帧开始时间=最后帧结束时间,新帧结束时间=新帧开始时间+ 1 /帧速率” - 我实际上在做“新帧开始时间=帧索引 - 1 / framerate,new frame end time = frame index / framerate“。

也就是说,我正在根据它们应该具有的预期时间计算帧开始和结束时间(帧时间=帧位置/帧速率)。

我的代码在做什么:

预计时间----------预计时间----------预计时间 帧时间帧时间帧时间

我在数学上理解这个问题,我只是不明白为什么十进制截断证明了这个问题,或者逻辑上知道解决它的最佳解决方案。

如果我实现的内容是“每x帧,使用”(1 /帧速率)+一些“以弥补所有丢失的时间,那么可以将帧匹配到应该的位置,或者只是结果在凌乱的视频?

    public void AudioDecoderThreadProc()
    {
        TimeSpan current = TimeSpan.FromSeconds(0.0);

        while (IsRunning)
        {
            RTPFrame nextFrame = jitter.FindCompleteFrame();

            if (nextFrame == null)
            {
                System.Threading.Thread.Sleep(20);
                continue;
            }

            while (nextFrame.PacketCount > 0 && IsRunning)
            {
                RTPPacket p = nextFrame.GetNextPacket();

                if (sub.ti.MediaCapability.Codec == Codec.G711A || sub.ti.MediaCapability.Codec == Codec.G711U)
                {
                    MediaBuffer<byte> mediaBuffer = new MediaBuffer<byte>(p.DataPointer, 0, (int)p.DataSize);
                    mediaBuffer.StartTime = current;
                    mediaBuffer.EndTime = current.Add(TimeSpan.FromSeconds((p.DataSize) / (double)audioDecoder.SampleRate));

                    current = mediaBuffer.EndTime;

                    if (SaveToFile == true)
                    {
                        WriteMp4Data(mediaBuffer);
                    }
                }
            }
        }
    }

    public void VideoDecoderThreadProc()
    {
        byte[] totalFrame = null;

        TimeSpan current = TimeSpan.FromSeconds(0.0);
        TimeSpan videoFrame = TimeSpan.FromTicks(3336670);
        long frameIndex = 1;

        while (IsRunning)
        {
            if (completedFrames.Count > 50)
            {
                System.Threading.Thread.Sleep(20);
                continue;
            }

            RTPFrame nextFrame = jitter.FindCompleteFrame();

            if (nextFrame == null)
            {
                System.Threading.Thread.Sleep(20);
                continue;
            }

            if (nextFrame.HasSequenceGaps == true)
            {
                continue;
            }

            totalFrame = new byte[nextFrame.TotalPayloadSize * 2];
            int offset = 0;

            while (nextFrame.PacketCount > 0)
            {
                byte[] fragFrame = nextFrame.GetAssembledFrame();

                if (fragFrame != null)
                {
                    fragFrame.CopyTo(totalFrame, offset);
                    offset += fragFrame.Length;
                }
            }

            MediaBuffer<byte> mediaBuffer = new MediaBuffer<byte>(
                totalFrame,
                0,
                offset,
                TimeSpan.FromTicks(Convert.ToInt64((frameIndex - 1) / mp4TrackInfo.Video.Framerate * 10000000)),
                TimeSpan.FromTicks(Convert.ToInt64(frameIndex / mp4TrackInfo.Video.Framerate * 10000000)));

            if (SaveToFile == true)
            {
                WriteMp4Data(mediaBuffer);
            }

            lock (completedFrames)
            {
                completedFrames.Add(mediaBuffer);
            }

            frameIndex++;
        }
    }

2 个答案:

答案 0 :(得分:1)

您应注意以下几点:

  1. 不正确的手动帧时间戳。通过手动计算帧持续时间而不是让驱动程序/卡/任何给你帧时间通常是个坏主意。由于可变比特率,内部计算机时序等原因,自己冲压框架几乎总会导致漂移。

  2. 精确漂移。在处理以毫秒为单位的帧时间戳时,我遇到漂移,但我的源时间戳以纳秒为单位。这需要我投两个长。

    例如,我从directshow获得一个以纳秒为单位的媒体时间,但是我的内部计算需要毫秒单位。这意味着我需要在ns和ms之间进行转换。对我来说,这就是精确损失的地方。我的解决方案是你需要跟踪任何精度损失。

    我过去所做的是我有一个正在运行的“timingFraction”计数器。基本上,每当我进行除法时,都会给出帧的基本时间戳(因此帧时间/ NS_PS_MS)。但是,我还将预先计时时间戳的丢弃小数部分添加到定时分数计数器(在c ++中我使用了modf函数)。现在,如果时间分数是整数,我将剩余的时间分数添加到已转换的时间戳(这是一个整数,因为它被转换为长整数)。基本上,如果你累积了额外的毫秒,请务必将其添加到框架中。通过这种方式,您可以补偿任何精度漂移。

  3. 手风琴效果。虽然随着时间的推移,一切都可能正确,但你认为即使在1秒的时间内,事情也应该匹配,但事实并非如此。音频需要完美匹配或听起来很奇怪。这通常的特点是你在正确的时间听到来自一个人的正确音频,但嘴唇没有对齐。随着时间的推移,一切都还不错,但没有什么可以排队的。这是因为您没有在正确的时间渲染帧。有些帧有点太长,有些帧有点太短,所有的一切都加在正确的位置,但没有什么是合适的长度。

  4. 现在,如果您的精度已达到100纳秒级别,为什么要遇到这个问题,听起来像是它可能是第1项。我会确认您确定在计算正确的结束时间戳之前继续前进。

    我有时也运行测试,总结帧之间的增量,并确保正确添加。流的持续时间内每帧之间的时间总和应等于流式传输的时间。即帧1长33毫秒,帧2长34毫秒,记录67毫秒。如果你录制了70毫秒,你就失去了某些东西。漂移通常在几个小时后出现,并且在将音频和视频匹配在一起时更容易通过耳/眼检测。

    另外,为了反驳汉斯的评论,音频工程界对此有很多话要说。 10毫秒足以听到延迟,特别是与视频反馈配对时。您可能无法看到10毫秒的延迟,但您肯定能听到它。来自http://helpx.adobe.com/audition/kb/troubleshoot-recording-playback-monitoring-audition.html

      

    适用于延迟时间的一般准则

         

    小于10毫秒 - 允许实时监控传入的音轨,包括效果。

         

    在10毫秒时 - 可以检测到延迟,但仍然听起来很自然并可用于监控。

         

    11-20毫秒 - 监控开始变得无法使用,涂抹实际声源,&gt;监控输出显而易见。

         

    20-30 ms - 延迟声音开始听起来像实际延迟而不是原始信号的分量。

    我在这里有点肆虐,但有很多事情在起作用。

答案 1 :(得分:1)

有一点是你的帧率计算错误。

  

每个视频帧的持续时间应为1 /帧速率= 0.0333667000333667

使用29.97作为帧率时的情况。 29.97仅仅是显示值。实际帧率为30 / 1.001 = 29.97002997002997 FPS。因此,一帧持续1 / (30 / 1.001) = 0.0333666666666667秒。 Source,请参阅&#39; 60i&#39;。