这个Sobel过滤器对GPU的性能是否正常?

时间:2013-06-16 14:13:40

标签: c# cuda filtering cudafy.net

我有一个与你有关的CUDA问题:)。 由于我使用CUDA相对较新,我想知道这种“性能”是否合适。

我正在使用C#和Cudafy.Net!

我有一个灰度图像(表示为float []),我是根据屏幕截图计算出来的(图像大小为:1920x1018像素)。

现在我使用在GPU上运行的Sobel过滤器(通过Cudafy.Net),如下所示:

    [Cudafy]
    public static void PenaltyKernel(GThread thread, Single[] data, Single[] res, Int32 width, Int32 height)
    {
        Single[] shared_data = thread.AllocateShared<Single>("shared_data", BLOCK_WIDTH * BLOCK_WIDTH);
        ///Map from threadIdx/BlockIdx to Pixel Position
        int x = thread.threadIdx.x - FILTER_WIDTH + thread.blockIdx.x * TILE_WIDTH;
        int y = thread.threadIdx.y - FILTER_WIDTH + thread.blockIdx.y * TILE_WIDTH;
        shared_data[thread.threadIdx.x + thread.threadIdx.y * BLOCK_WIDTH] = data[x + y * width];
        thread.SyncThreads();

        if (thread.threadIdx.x >= FILTER_WIDTH && thread.threadIdx.x < (BLOCK_WIDTH - FILTER_WIDTH) &&
            thread.threadIdx.y >= FILTER_WIDTH && thread.threadIdx.y < (BLOCK_WIDTH - FILTER_WIDTH))
        {
            ///Horizontal Filtering (detects horizontal Edges)
            Single diffHorizontal = 0;
            int idx = GetIndex(thread.threadIdx.x - 1, thread.threadIdx.y - 1, BLOCK_WIDTH);
            diffHorizontal -= shared_data[idx];
            idx++;
            diffHorizontal -= 2 * shared_data[idx];
            idx++;
            diffHorizontal -= shared_data[idx];
            idx += 2*BLOCK_WIDTH;
            diffHorizontal += shared_data[idx];
            idx++;
            diffHorizontal += 2 * shared_data[idx];
            idx++;
            diffHorizontal += shared_data[idx];

            ///Vertical Filtering (detects vertical Edges)
            Single diffVertical = 0;
            idx = GetIndex(thread.threadIdx.x - 1, thread.threadIdx.y - 1, BLOCK_WIDTH);
            diffVertical -= shared_data[idx];
            idx += BLOCK_WIDTH;
            diffVertical -= 2 * shared_data[idx];
            idx += BLOCK_WIDTH;
            diffVertical -= shared_data[idx];
            idx = GetIndex(thread.threadIdx.x + 1, thread.threadIdx.y - 1, BLOCK_WIDTH);
            diffVertical += shared_data[idx];
            idx += BLOCK_WIDTH;
            diffVertical += 2 * shared_data[idx];
            idx += BLOCK_WIDTH;
            diffVertical += shared_data[idx];

            ///Convert the "edgyness" for the Pixel and cut off at 1.0
            Single diff = GMath.Min(1.0f, GMath.Sqrt(diffHorizontal * diffHorizontal + diffVertical * diffVertical));

            ///Get the Array-Index
            idx = GetIndex(x, y, width);
            ///Set the Value
            res[x + y * width] = diff;
        }
    }

常量值在运行时之前设置:

TILE_WIDTH = 16;
FILTER_WIDTH = 1;
BLOCK_WIDTH = TILE_WIDTH + 2 * FILTER_WIDTH;

当我运行此“PenaltyKernel”功能,包括阵列的内存分配将数据复制到设备之间时,我平均大约 6.2ms 运行时间(使用GTX 680 GT!)。

所以现在我的问题是,如果这个速度没问题(那会产生大约每秒161帧)或者我错过了什么?我的Sobel滤镜是否还可以(我的意思是,结果看起来不错:))?

感谢任何帮助!

1 个答案:

答案 0 :(得分:0)

我认为这是一个好的速度。大部分时间是在主机和设备之间复制数据(特别是从GPU到CPU的传输速度很慢)。

关于速度的说明:一般来说,GPU上的图像处理可能比CPU上的图像处理慢(我没有测试过你的代码所以我不知道你的情况是否适用)如果图像很小。但是,图像越大,在设备上处理的速度就越快,而不是在主机上。