Question

我将要将使用C ++编写的OpenGL的iOS应用移植到Apple的Metal。目标是完全摆脱OpenGL，并用Metal取代它。

OpenGL代码分层了，我正试图替换渲染器，即实际调用OpenGL函数的类。但是，整个代码库都使用GLM数学库来表示向量和矩阵。

例如，有一个摄像机类提供视图和投影矩阵。它们都属于glm::mat4类型，并被简单地传递到GLSL顶点着色器，在这里它们与GLSL给定的mat4数据类型兼容。我想利用该相机类，因为它是将那些矩阵发送到Metal顶点着色器。现在，我不确定glm::mat4是否与Metal的float4x4兼容。

我没有一个可以在其中进行测试的示例，因为我实际上只是从Metal入手，找不到任何有用的在线信息。

所以我的问题如下：

诸如glm::mat4和glm::vec4的GLM类型是否与Metal的float4x4 / float4兼容？
如果问题1的答案是肯定的，那么直接在Metal着色器中使用GLM类型是否对我不利？

问题2的背景是我遇到了Apple的SIMD库，该库提供了另一组在这种情况下无法使用的数据类型，对吗？

该应用程序仅是iOS，我根本不在乎在macOS上运行Metal。

非常欢迎使用代码段（最好是Objective-C（是，不要开玩笑））。

Answer 1

总体而言，答案是是，GLM非常适合使用Apple Metal的应用程序。但是，有几件事需要考虑。评论中已经暗示了其中一些内容。

首先，Metal Programming Guide提到

金属将其归一化设备坐标（NDC）系统定义为2x2x1立方体，其中心位于（0，0，0.5）

这意味着Metal NDC坐标与OpenGL NDC坐标不同，因为OpenGL将NDC坐标系定义为中心为(0, 0, 0)的2x2x2立方体，即有效OpenGL NDC坐标必须在

之内。

// Valid OpenGL NDC coordinates
-1 <= x <= 1
-1 <= y <= 1
-1 <= z <= 1

由于GLM最初是为OpenGL量身定制的，因此其glm::ortho和glm::perspective函数可创建投影矩阵，将坐标转换为OpenGL NDC坐标。因此，有必要将这些坐标调整为“金属”。 this博客文章中概述了如何实现这一目标。

但是，有一种更优雅的方法来固定这些坐标。有趣的是，Vulkan使用了与Metal相同的NDC坐标系，并且GLM已被改编为可与Vulkan一起使用（此here的提示）。

通过定义C / C ++预处理程序宏GLM_FORCE_DEPTH_ZERO_TO_ONE，提到的GLM投影矩阵函数将转换坐标以与Metal的/ Vulkan的NDC坐标系统一起使用。因此#define将解决NDC坐标系不同的问题。

接下来，在Metal着色器和客户端（CPU）代码之间交换数据时，必须同时考虑GLM和Metal数据类型的大小和对齐方式，这一点很重要。 Apple的Metal Shading Language Specification列出了其数据类型的 some 的大小和对齐方式。

对于其中未列出的数据类型，大小和对齐方式可以通过使用C / C ++的sizeof和alignof运算符来确定。有趣的是，Metal着色器支持两个运算符。这是GLM和Metal的两个示例：

// Size and alignment of some GLM example data types
glm::vec2 : size:  8, alignment: 4
glm::vec3 : size: 12, alignment: 4
glm::vec4 : size: 16, alignment: 4
glm::mat4 : size: 64, alignment: 4

// Size and alignment of some of Metal example data types
float2        : size:  8, alignment:  8
float3        : size: 16, alignment: 16
float4        : size: 16, alignment: 16
float4x4      : size: 64, alignment: 16
packed_float2 : size:  8, alignment:  4
packed_float3 : size: 12, alignment:  4
packed_float4 : size: 16, alignment:  4

从上表可以看出，GLM向量数据类型在大小和对齐方式上与Metal的打包向量数据类型非常匹配。但是请注意，在对齐方式上4x4矩阵数据类型不匹配。

根据this对另一个SO问题的回答，对齐表示以下含义：

对齐方式是对可以存储值的第一个字节的存储位置的限制。（需要提高处理器的性能，并允许使用某些仅适用于具有特定对齐方式的数据的指令，例如SSE必须对齐为16个字节，而AVX必须对齐为32个字节。）

16的对齐表示唯一的有效地址是16的倍数的内存地址。

因此，在将4x4矩阵发送到Metal着色器时，我们需要谨慎考虑不同的对齐方式。让我们看一个例子：

以下Objective-C结构充当缓冲区，用于存储要发送到Metal顶点着色器的统一值：

typedef struct
{
  glm::mat4 modelViewProjectionMatrix;
  glm::vec2 windowScale;
  glm::vec4 edgeColor;
  glm::vec4 selectionColor;
} SolidWireframeUniforms;

此结构定义在客户端文件（即CPU端）代码中所需的头文件中。为了能够在“金属”顶点着色器侧使用这些值，我们需要一个相应的数据结构。在此示例中，Metal顶点着色器部分如下所示：

#include <metal_matrix>
#include <metal_stdlib>

using namespace metal;

struct SolidWireframeUniforms
{
  float4x4      modelViewProjectionMatrix;
  packed_float2 windowScale;
  packed_float4 edgeColor;
  packed_float4 selectionColor;
};

// VertexShaderInput struct defined here...

// VertexShaderOutput struct defined here...

vertex VertexShaderOutput solidWireframeVertexShader(VertexShaderInput input [[stage_in]], constant SolidWireframeUniforms &uniforms [[buffer(1)]])
{
  VertexShaderOutput output;
  // vertex shader code
}

要将数据从客户端代码传输到Metal着色器，请将统一结构打包到缓冲区中。以下代码显示了如何创建和更新该缓冲区：

- (void)createUniformBuffer
{
  _uniformBuffer = [self.device newBufferWithBytes:(void*)&_uniformData length:sizeof(SolidWireframeUniforms) options:MTLResourceCPUCacheModeDefaultCache];
}


- (void)updateUniforms
{
  dispatch_semaphore_wait(_bufferAccessSemaphore, DISPATCH_TIME_FOREVER);

  SolidWireframeUniforms* uniformBufferContent = (SolidWireframeUniforms*)[_uniformBuffer contents];
  memcpy(uniformBufferContent, &_uniformData, sizeof(SolidWireframeUniforms));

  dispatch_semaphore_signal(_bufferAccessSemaphore);
}

请注意用于更新缓冲区的memcpy调用。如果GLM和Metal数据类型的大小和对齐方式不匹配，则可能会出错。由于我们只是将Objective-C结构的每个字节复制到缓冲区，然后在Metal着色器侧，再次解释该数据，如果数据结构不匹配，则数据将在Metal着色器侧被误解。

在该示例中，内存布局如下所示：

                                              104 bytes
           |<--------------------------------------------------------------------------->|
           |                                                                             |
           |         64 bytes              8 bytes         16 bytes         16 bytes     |
           | modelViewProjectionMatrix   windowScale      edgeColor      selectionColor  |
           |<------------------------->|<----------->|<--------------->|<--------------->|
           |                           |             |                 |                 |
           +--+--+--+------------+--+--+--+-------+--+--+-----------+--+--+----------+---+
Byte index | 0| 1| 2|    ...     |62|63|64|  ...  |71|72|    ...    |87|88|   ...    |103|
           +--+--+--+------------+--+--+--+-------+--+--+-----------+--+--+----------+---+
                                        ^             ^                 ^
                                        |             |                 |
                                        |             |                 +-- Is a multiple of 4, aligns with glm::vec4 / packed_float4
                                        |             |
                                        |             +-- Is a multiple of 4, aligns with glm::vec4 / packed_float4
                                        |
                                        +-- Is a multiple of 4, aligns with glm::vec2 / packed_float2

除4x4 matix对齐方式外，其他所有内容都匹配良好。 4x4矩阵的未对齐在这里没有问题，在上述内存布局中可见。但是，如果统一结构得到修改，则对齐或大小可能会成为问题，并且可能需要填充以使其正常工作。

最后，还有其他需要注意的地方。数据类型的对齐会影响需要为统一缓冲区分配的大小。由于SolidWireframeUniforms结构中出现的最大对齐方式是16，因此似乎统一缓冲区的长度也必须是16的倍数。

在上面的示例中情况并非如此，缓冲区长度为104字节，不是16的倍数。直接从Xcode运行应用程序时，内置的断言将显示以下消息：

validateFunctionArguments：3478：断言失败顶点功能（solidWireframeVertexShader）：缓冲区（1）的偏移量为[0]且偏移量为（0）和长度为（104）的参数统一[0]有104个字节的空间，但参数有一个长度（112）。'

为了解决这个问题，我们需要使缓冲区的大小为16字节的倍数。为此，我们只需根据所需的实际长度计算下一个16的倍数。对于104来说将是112，这就是上面的断言还告诉我们的。

以下函数为指定整数计算16的下一个倍数：

- (NSUInteger)roundUpToNextMultipleOf16:(NSUInteger)number
{
  NSUInteger remainder = number % 16;

  if(remainder == 0)
  {
    return number;
  }

  return number + 16 - remainder;
}

现在，我们使用上述函数来计算统一缓冲区的长度，该函数将更改缓冲区创建方法（如上所示），如下所示：

- (void)createUniformBuffer
{
  NSUInteger bufferLength = [self roundUpToNextMultipleOf16:sizeof(SolidWireframeUniforms)];
  _uniformBuffer = [self.device newBufferWithBytes:(void*)&_uniformData length:bufferLength options:MTLResourceCPUCacheModeDefaultCache];
}

那应该解决上述断言检测到的问题。

Answer 2

是否有与Metal兼容的GLM类型，例如glm :: mat4和glm :: vec4 float4x4 / float4？

是的，您可以使用此库。

如果问题1的答案是肯定的，我是否有任何不利之处，如果我可以在Metal着色器中直接使用GLM类型吗？

也许只是在性能方面。

基于this文档：

SIMD库独立于Metal和MetalKit，但高度推荐用于开发Metal应用，主要是因为其便利性和性能优势。

GLM数学库是否与Apple的金属着色语言兼容？

2 个答案: