Question

我正在使用方差阴影映射计算多个点光源的阴影。立方体贴图的所有6个面都使用几何着色器在一次渲染中渲染，这将针对每个光源重复，并且整个批次存储在立方体贴图阵列中。这一切都运行正常，16点灯在60fps没问题。

追逐进一步的优化，我试图将整个过程移动到单个几何着色器传递，只是为了达到我硬件的唯一113顶点输出限制。出于好奇，我决定只渲染4个灯（72个发射的顶点），令我惊讶的是它下降到24fps。

那么为什么16次渲染通道的16个灯光在单次通过中的表现明显优于4个灯光？

代码基本相同。

#version 400 core

layout(triangles) in;
layout (triangle_strip, max_vertices=18) out;

uniform int lightID;
out vec4 frag_position;

uniform mat4 projectionMatrix;
uniform mat4 shadowTransforms[6];

void main()
{   
    for(int face = 0; face < 6; face++)
    {
        gl_Layer = face + (lightID * 6);

        for(int i=0; i<3; i++)
        {
            frag_position = shadowTransforms[face] * gl_in[i].gl_Position;
            gl_Position = projectionMatrix * shadowTransforms[face] * gl_in[i].gl_Position;

            EmitVertex();
        }
        EndPrimitive();
    }
}

与

#version 400 core

layout(triangles) in;
layout (triangle_strip, max_vertices=72) out;

out vec4 frag_position;

uniform mat4 projectionMatrix;
uniform mat4 shadowTransforms[24];

void main()
{   
    for (int lightSource = 0; lightSource < 4; lightSource++)
    {
        for(int face = 0; face < 6; face++)
        {
            gl_Layer = face + (lightSource * 6);

            for(int i=0; i<3; i++)
            {
                frag_position = shadowTransforms[gl_Layer] * gl_in[i].gl_Position;
                gl_Position = projectionMatrix * shadowTransforms[gl_Layer] * gl_in[i].gl_Position;
                EmitVertex();
            }
            EndPrimitive();
        }
    }
}

和

public void ShadowMapsPass(Shader shader)
{
    // Setup
    GL.UseProgram(shader.ID);
    GL.Viewport(0, 0, CubeMapArray.size, CubeMapArray.size);

    // Clear the cubemarray array data from the previous frame
    GL.BindFramebuffer(FramebufferTarget.Framebuffer, shadowMapArray.FBO_handle);
    GL.ClearColor(Color.White);
    GL.Clear(ClearBufferMask.ColorBufferBit | ClearBufferMask.DepthBufferBit);

    for (int j = 0; j < lights.Count; j++)
    {
        // Create the light's view matrices
        List<Matrix4> shadowTransforms = new List<Matrix4>();
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(1, 0, 0), new Vector3(0, -1, 0)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(-1, 0, 0), new Vector3(0, -1, 0)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, 1, 0), new Vector3(0, 0, 1)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, -1, 0), new Vector3(0, 0, -1)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, 0, 1), new Vector3(0, -1, 0)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, 0, -1), new Vector3(0, -1, 0)));

        // Send uniforms to the shader
        for (int i = 0; i < 6; i++)
        {
            Matrix4 shadowTransform = shadowTransforms[i];
            GL.UniformMatrix4(shader.getUniformID("shadowTransforms[" + i + "]"), false, ref shadowTransform);
        }
        GL.Uniform1(shader.getUniformID("lightID"), j);
        DrawScene(shader, false);
    }
}

与

public void ShadowMapsPass(Shader shader)
{
    // Setup
    GL.UseProgram(shader.ID);
    GL.Viewport(0, 0, CubeMapArray.size, CubeMapArray.size);

    // Clear the cubemarray array data from the previous frame
    GL.BindFramebuffer(FramebufferTarget.Framebuffer, shadowMapArray.FBO_handle);
    GL.ClearColor(Color.White);
    GL.Clear(ClearBufferMask.ColorBufferBit | ClearBufferMask.DepthBufferBit);

    // Create the light's view matrices
    List<Matrix4> shadowTransforms = new List<Matrix4>();
    for (int j = 0; j < lights.Count; j++)
    {
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(1, 0, 0), new Vector3(0, -1, 0)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(-1, 0, 0), new Vector3(0, -1, 0)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, 1, 0), new Vector3(0, 0, 1)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, -1, 0), new Vector3(0, 0, -1)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, 0, 1), new Vector3(0, -1, 0)));
        shadowTransforms.Add(Matrix4.LookAt(lights[j].position, lights[j].position + new Vector3(0, 0, -1), new Vector3(0, -1, 0)));
    }

    // Send uniforms to the shader
    for (int i = 0; i < shadowTransforms.Count; i++)
    {
        Matrix4 shadowTransform = shadowTransforms[i];
        GL.UniformMatrix4(shader.getUniformID("shadowTransforms[" + i + "]"), false, ref shadowTransform);
    }      
    DrawScene(shader, false);
}

Answer 1

我认为第二种形式的并行代码执行机会较少。几何着色器的第一个版本生成18个顶点，必须执行4次，但这4个执行可以并行运行。第二个版本一个接一个地生成72个顶点。

OpenGL - 几何着色器阴影贴图通过执行非常

1 个答案: