Question

我正在研究内联汇编。我想在Xcode 4 LLVM 3.0 Compiler下用iPhone编写一个简单的例程。我成功编写了基本的内联汇编代码。

示例：

int sub(int a, int b)
{
    int c;
    asm ("sub %0, %1, %2" : "=r" (c) : "r" (a), "r" (b));
    return c;
}

我在stackoverflow.com找到它并且效果很好。但是，我不知道如何编写关于LOOP的代码。

我需要像

这样的汇编代码

void brighten(unsigned char* src, unsigned char* dst, int numPixels, int intensity)
{
    for(int i=0; i<numPixels; i++)
    {
        dst[i] = src[i] + intensity;
    }
}

Answer 1

请看一下循环部分 - http://en.wikipedia.org/wiki/ARM_architecture

基本上你会想要这样的东西：

void brighten(unsigned char* src, unsigned char* dst, int numPixels, int intensity) {
    asm volatile (
                  "\t mov r3, #0\n"
                  "Lloop:\n"
                  "\t cmp r3, %2\n"
                  "\t bge Lend\n"
                  "\t ldrb r4, [%0, r3]\n"
                  "\t add r4, r4, %3\n"
                  "\t strb r4, [%1, r3]\n"
                  "\t add r3, r3, #1\n"
                  "\t b Lloop\n"
                  "Lend:\n"
                 : "=r"(src), "=r"(dst), "=r"(numPixels), "=r"(intensity)
                 : "0"(src), "1"(dst), "2"(numPixels), "3"(intensity)
                 : "cc", "r3", "r4");
}

<强>更新

这是NEON版本：

void brighten_neon(unsigned char* src, unsigned char* dst, int numPixels, int intensity) {
    asm volatile (
                  "\t mov r4, #0\n"
                  "\t vdup.8 d1, %3\n"
                  "Lloop2:\n"
                  "\t cmp r4, %2\n"
                  "\t bge Lend2\n"
                  "\t vld1.8 d0, [%0]!\n"
                  "\t vqadd.s8 d0, d0, d1\n"
                  "\t vst1.8 d0, [%1]!\n"
                  "\t add r4, r4, #8\n"
                  "\t b Lloop2\n"
                  "Lend2:\n"
                  : "=r"(src), "=r"(dst), "=r"(numPixels), "=r"(intensity)
                  : "0"(src), "1"(dst), "2"(numPixels), "3"(intensity)
                  : "cc", "r4", "d1", "d0");
}

所以这个NEON版本一次会做8个。但它没有检查numPixels是否可被8整除，所以你肯定想要这样做，否则事情就会出错！无论如何，这只是向您展示可以做什么的开始。请注意相同数量的指令，但同时对八个像素数据执行操作。哦，它在那里也有饱和度，我认为你会想要它。

Answer 2

虽然这个答案不能直接解答你的问题，但它更多是关于汇编程序与现代编译器的使用的一般建议。

对于C代码的优化，你通常很难击败编译器。当然，通过巧妙地使用关于数据行为方式的某些知识，您可能只需将其调整几个百分点。

其中一个原因是现代编译器在处理代码时使用了许多技术，例如，循环展开，指令重新排序以避免管道停滞和气泡等。

如果你真的想让这个算法尖叫，你应该考虑在C中重新设计算法，这样你就可以避免最严重的延迟。例如，与寄存器访问相比，读取和写入存储器的成本很高。

实现此目的的一种方法是让代码一次加载4个字节，然后使用unsigned long然后在寄存器中对此进行数学运算，然后再将这4个字节写回一个存储操作。

所以回顾一下，让你的算法更聪明地工作，而不是更难。

如何在Xcode LLVM中编写关于LOOP的内联汇编代码？

2 个答案: