Question

我想在ARMv7核心上复制图像。天真的实现是每行调用memcpy。

for(i = 0; i < h; i++) {
  memcpy(d, s, w);
  s += sp;
  d += dp;
}

我知道以下

d, dp, s, sp, w

都是32字节对齐的，所以我的下一个（仍然非常天真）实现是

for (int i = 0; i < h; i++) {
  uint8_t* dst = d;
  const uint8_t* src = s;
  int remaining = w;
  asm volatile (
    "1:                                               \n"
    "subs     %[rem], %[rem], #32                     \n"
    "vld1.u8  {d0, d1, d2, d3}, [%[src],:256]!        \n"
    "vst1.u8  {d0, d1, d2, d3}, [%[dst],:256]!        \n"
    "bgt      1b                                      \n"
    : [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining)
    :
    : "d0", "d1", "d2", "d3", "cc", "memory"
  );
  d += dp;
  s += sp;
}

在大量迭代中，这比memcpy快〜150％（在不同的图像上，因此不利用缓存）。我觉得这应该没有达到最佳状态，因为我还没有使用预加载，但是当我这样做时，我似乎只能使性能大大降低。有没有人在这里有任何见解？

Answer 1

ARM对此有一个很好的技术说明。

http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.faqs/ka13544.html

你的表现肯定会因微观架构的不同而有所不同，ARM的说明是在A8上，但我认为它会给你一个不错的想法，而底部的摘要是对各种利弊的一个很好的讨论。超出常规数字，例如哪种方法导致最少的寄存器使用等等。

是的，正如另一位评论者提到的那样，预取很难做到正确，并且对于不同的微架构会有不同的工作方式，具体取决于缓存的大小和每条线的大小以及一堆其他细节关于缓存设计。如果你不小心，你最终可能会挣扎所需的线条。我建议避免使用便携式代码。

快速ARM NEON memcpy

1 个答案: