如何优化for循环的计算速度?

时间:2015-03-28 23:42:45

标签: java algorithm optimization parallel-processing scientific-computing

我有点困难(至少对我来说)。我注意到在分析我的代码时几乎所有的(单核)计算时间被下面的单个嵌套循环(图像上的双积分)吃掉了。您认为加速计算的最佳方式是什么?

我尝试将其映射到嵌套流,但我不明白如何映射多个if块...尝试使用OpenCL在GPU上执行此操作是否更适合此问题?

ip是一个ImageJ ImageProcessor,其方法.getPixelValue(x,y)也非常耗费资源。但由于它属于已建立的lib,我想尽可能避免修改它。

变量声明:

private ImageProcessor ip = null; //This type comes from ImageJ
private double area;
private double a11, a22;
private double u1, u2;
private double v1, v2;
private double y1, y2;
private static final double HALF_SQRT2 = sqrt(2.0) / 2.0;
private static final double SQRT_TINY =
    sqrt((double)Float.intBitsToFloat((int)0x33FFFFFF));

功能:

private double contrast (
) {
    if (area < 1.0) {
        return(1.0 / SQRT_TINY);
    }
    double c = 0.0;
    final int xmin = max((int)floor(u1), 0);
    final int xmax = min((int)ceil(v1), width - 1);
    final int ymin = max((int)floor(u2), 0);
    final int ymax = min((int)ceil(v2), height - 1);
    if ((u1 < xmin) || (xmax < v1) || (u2 < ymin) || (ymax < v2)){
        return(1.0 / SQRT_TINY);
    }
    if ((xmax <= xmin) || (ymax <= ymin)) {
        return(1.0 / SQRT_TINY);
    }
    for (int y = ymin; (y <= ymax); y++) {
        final double dy = y2 - (double)y;
        final double dy2 = dy * dy;
        for (int x = xmin; (x <= xmax); x++) {
            final double dx = y1 - (double)x;
            final double dx2 = dx * dx;
            final double d = sqrt(dx2 + dy2);
            double z = a11 * dx2 + a12 * dx * dy + a22 * dy2;
            if (z < SQRT_TINY) {
                c -= ip.getPixelValue(x, y);
                continue;
            }
            z = a3 / sqrt(z);
            double d0 = (1.0 - z / SQRT2) * d;
            if (d0 < -HALF_SQRT2) {
                c -= ip.getPixelValue(x, y);
                continue;
            }
            if (d0 < HALF_SQRT2) {
                c += SQRT2 * d0 * ip.getPixelValue(x, y);
                continue;
            }
            d0 = (1.0 - z) * d;
            if (d0 < -1.0) {
                c += ip.getPixelValue(x, y);
                continue;
            }
            if (d0 < 1.0) {
                c += (1.0 - d0) * ip.getPixelValue(x, y) / 2.0;
                continue;
            }
        }
    }
    return(c / area);

2 个答案:

答案 0 :(得分:4)

您可以尝试分而治之方法。

将图像划分为并行处理的 n 部分。 但是你必须处理边界上出现的边缘情况(两个部分相遇)。

或者你可以开始寻找数值算法,这些算法计算(离散)积分并且是为并行而设计的。

<强>更新

由于您的方法被称为contrast,我假设您正在改变图像的对比度。

图像操作可以通过卷积(基本上是离散的双积分,如果在2D图像上执行)和特定的kernel(图像滤波器)来执行。这些操作可以在GPU上计算,并产生数量级的加速。您可以使用OpenCl编写在多个GPU上执行的程序。

答案 1 :(得分:1)

你没有给出关于循环中发生了什么的太多信息,例如,变量'ip'是什么。但总的来说,我建议实例化for-loop范围之外的变量,因为使用局部变量会增加内存使用量