Question

此外，假设循环中的所有操作完全独立于其他迭代，编译器如何确定展开循环的程度。

Answer 1

#pragma loop( ivdep )

对于许多其他编译器，例如Intel / ibm，有几个用于优化循环的编译指示提示：

#pragma unroll
#pragma loop count N
#pragma ivdep

VC尝试平衡执行速度和代码大小。您可以使用flags / O1或/ O2更改余额，但即使优化速度VC也会尝试节省代码大小。

基本上，展开会增加代码大小，因此在Os和O1模式下可能会受到限制（modes table）

PS：Pragma看起来像预处理器指令，但事实并非如此。它是编译器的指令，它被预处理器忽略（保留）。

Answer 2

对于英特尔编译器：

#pragma loop count N 帮助编译器使用最佳策略来对循环进行矢量化。它节省了时间因此，我们可以说它有助于推动循环展开。例子：

#pragma loop_count min(n),max(n),avg(n)

#pragma unroll（n）仅在与-O3标志一起使用时才有效，您可以使用以下策略根据目标处理器展开循环。

除了循环展开生成的增加的代码之外，它可能是值得的，因为编译器将为标量操作以及向量操作生成循环版本。

在展开影响性能的情况下，例如：循环使用向量长度为16的20次迭代，导致1个循环一次执行16个操作，而余数循环按顺序执行4个。为了避免编译器生成的余数循环，我们可以在循环之前使用：

#pragma vector novecremainder //or -mP2OPT_hpo_vec_peel = F to disable peel and remainder loops (compiler internal option)

或

#pragma nounroll //where unrolling is not worth at all

只是为了澄清 #pragma ivdep ：

希望这会有所帮助。