我刚刚开始使用ffmpeg-mt合并到的最新版本的ffmpeg。
但是,由于我的应用程序使用TBB(英特尔线程构建模块),因此新的线程创建和同步的ffmpeg-mt实现不太合适,因为它可能会阻止执行解码功能的TBB任务。此外,它会不必要地丢弃缓存。
我在pthread.c中环顾四周,它似乎实现了ffmpeg用来启用多线程的接口。
我的问题是,是否可以创建一个实现相同功能但使用tbb任务而不是显式线程的tbb.c?
我对C没有经验,但我的猜测是不可能轻易地将tbb(也就是C ++)编译成ffmpeg。所以也许以某种方式在运行时覆盖ffmpeg函数指针将是要走的路?
我很感激有关将TBB实施到ffmpeg线程api的任何建议或意见。
答案 0 :(得分:7)
所以我通过阅读ffmpeg代码找出了如何做到这一点。
基本上,您只需要包含以下代码,然后使用tbb_avcodec_open/tbb_avcodec_close
代替ffmpegs'avcodec_open/avcodec_close
。
这将使用TBB任务并行执行解码。
// Author Robert Nagy
#include "tbb_avcodec.h"
#include <tbb/task.h>
#include <tbb/atomic.h>
extern "C"
{
#define __STDC_CONSTANT_MACROS
#define __STDC_LIMIT_MACROS
#include <libavformat/avformat.h>
}
int task_execute(AVCodecContext* s, std::function<int(void* arg, int arg_size, int jobnr, int threadnr)>&& func, void* arg, int* ret, int count, int size)
{
tbb::atomic<int> counter;
counter = 0;
// Execute s->thread_count number of tasks in parallel.
tbb::parallel_for(0, s->thread_count, 1, [&](int threadnr)
{
while(true)
{
int jobnr = counter++;
if(jobnr >= count)
break;
int r = func(arg, size, jobnr, threadnr);
if (ret)
ret[jobnr] = r;
}
});
return 0;
}
int thread_execute(AVCodecContext* s, int (*func)(AVCodecContext *c2, void *arg2), void* arg, int* ret, int count, int size)
{
return task_execute(s, [&](void* arg, int arg_size, int jobnr, int threadnr) -> int
{
return func(s, reinterpret_cast<uint8_t*>(arg) + jobnr*size);
}, arg, ret, count, size);
}
int thread_execute2(AVCodecContext* s, int (*func)(AVCodecContext* c2, void* arg2, int, int), void* arg, int* ret, int count)
{
return task_execute(s, [&](void* arg, int arg_size, int jobnr, int threadnr) -> int
{
return func(s, arg, jobnr, threadnr);
}, arg, ret, count, 0);
}
void thread_init(AVCodecContext* s)
{
static const size_t MAX_THREADS = 16; // See mpegvideo.h
static int dummy_opaque;
s->active_thread_type = FF_THREAD_SLICE;
s->thread_opaque = &dummy_opaque;
s->execute = thread_execute;
s->execute2 = thread_execute2;
s->thread_count = MAX_THREADS; // We are using a task-scheduler, so use as many "threads/tasks" as possible.
}
void thread_free(AVCodecContext* s)
{
s->thread_opaque = nullptr;
}
int tbb_avcodec_open(AVCodecContext* avctx, AVCodec* codec)
{
avctx->thread_count = 1;
if((codec->capabilities & CODEC_CAP_SLICE_THREADS) && (avctx->thread_type & FF_THREAD_SLICE))
thread_init(avctx);
// ff_thread_init will not be executed since thread_opaque != nullptr || thread_count == 1.
return avcodec_open(avctx, codec);
}
int tbb_avcodec_close(AVCodecContext* avctx)
{
thread_free(avctx);
// ff_thread_free will not be executed since thread_opaque == nullptr.
return avcodec_close(avctx);
}
答案 1 :(得分:2)
在此重新发布我对你at the TBB forum的回复,为了SO的任何人都可以感兴趣。
上面的答案中的代码对我来说很好;在使用本机线程设计的上下文中使用TBB的一种聪明方法。我想知道是否可以制作更多的TBBish。如果你有时间和愿望,我有一些你可以尝试的想法。
如果需要/需要控制线程数,则可以关注以下两个项目。
tbb::task_scheduler_init
(TSI)对象,并根据需要使用尽可能多的线程对其进行初始化(不需要MAX_THREADS)。如果可能/允许,请将此对象的地址保留在s->thread_opaque
中;如果没有,可能的解决方案是将AVCodecContext*
映射到相应task_scheduler_init
的地址的全球地图。独立于上述情况,另一个潜在的变化是如何调用tbb::parallel_for
。而不是仅使用它来创建足够的线程,它不能用于它的直接目的,如下所示?
int task_execute(AVCodecContext* s,
std::function<int(void*, int, int, int)>&& f,
void* arg, int* ret, int count, int size)
{
tbb::atomic<int> counter;
counter = 0;
// Execute 'count' number of tasks in parallel.
tbb::parallel_for(tbb::blocked_range<int>(0, count, 2),
[&](const tbb::blocked_range<int> &r)
{
int threadnr = counter++;
for(int jobnr=r.begin(); jobnr!=r.end(); ++jobnr)
{
int r = func(arg, size, jobnr, threadnr);
if (ret)
ret[jobnr] = r;
}
--counter;
});
return 0;
}
如果count
明显大于thread_count
,这可以更好地执行,因为a)更多并行松弛意味着TBB更有效地运行(您显然知道),以及b)集中式原子的开销计数器分布在更多迭代上。请注意,我为blocked_range
选择了2的粒度;这是因为计数器在循环体内递增和递减,因此每个任务至少需要两次迭代(相应地,count>=2*thread_count
)才能“匹配”你的变体。