这可能已经被一遍又一遍地问过,但是我找不到任何有用的东西,所以在这里又一次......
在我的应用程序中,我需要渲染一个相当大的网格(几百万个三角形或更多),并且我遇到了一些问题,从中获得了不错的帧速率。 CPU几乎是空闲的,所以我绝对是GPU限制的。更改分辨率不会影响性能,因此不会出现碎片或光栅限制。
网格是动态的(但本地是静态的)所以我无法将整个内容存储在视频卡中并通过一次调用来呈现它。由于应用程序的特定原因,数据存储为八叶树,叶片中有体素,这意味着我基本上可以免费获得视锥体剔除。顶点数据由坐标,法线和颜色组成 - 不使用纹理或着色器。
我的第一种方法是使用一个大的STREAM_DRAW
VBO从内存中渲染所有东西,结果证明太慢了。我最初的想法是,我可能会使总线过载(每帧推动约150 MiB),所以我实现了一个缓存方案,该方案存储最近用于在显卡上的静态VBO中渲染对象的几何体,每个VBO存储几个100 KiB到几个MiB值的数据(每个VBO存储更多会产生更多的缓存抖动,所以这里有一个权衡)。下图是数据的示例,其中红色的所有内容都是从缓存的VBO中提取的。
Example of the rendered data http://gimaker.users.sourceforge.net/0010.png
如下面的数字所示,使用缓存时,我看不到性能的惊人提升。对于大约1百万个三角形的完全静态网格,我得到以下帧速率:
STATIC_DRAW
维也纳协会进行缓存:2.4 Hz 所以我的问题是如何加快速度?即:
GL_FLOAT
和GL_UNSIGNED_BYTE
用于颜色,一个填充字节用于获得4字节对齐(28字节/顶点总数)。我对建议LOD(我已经测试过这个),特定于供应商的提示或使用1.5以上的OpenGL功能的答案不感兴趣。
答案 0 :(得分:5)
你可能不会喜欢这种回应......
我发现了你的问题:采用开源Linux驱动程序的英特尔GM965
虽然我目前的工作没有达到您的数据量,但我们已经在VBO中渲染了数百万个顶点,并且英特尔图形硬件/驱动程序已被证明是无用的。给自己一张NVidia卡(并且不得不使用二进制驱动程序,它只是有效),你就可以了。即使是高端Quadro(如果工作正在付费)或高端GTX 400系列(如果你付钱或者只是想在工作中节省一些钱),甚至不必是当代的,应该做得很好w /最新驱动程序。如果无法升级您的机器,您也可以尝试找到具有此硬件的机器进行测试。
答案 1 :(得分:0)
我会首先使用性能分析器(如gDEBugger),这样你就可以判断出你是顶点,片段还是总线限制等等。很难猜出在这种特殊情况下要执行哪些优化(英特尔+开源驱动程序)。
您是否也尝试过VA模式?你在使用glDrawElements
吗? glDrawArrays
?数据顶点缓存是否友好(变换前后变换)?
答案 2 :(得分:0)
我不知道你的“网格”,但似乎它们都是立方体。如果可以,请将单个联合立方体渲染到显示列表并呈现该显示列表的缩放版本。这通常会提高10倍的速度,因为没有使用顶点数据或视频内存耗尽而无法使用总线。
当然,这取决于您更改数据的能力。如果它真的不像图片那么可能不是这样的。