我不是在寻找便携式SIMD实现。
我所需要的只是:一点精确的实现。只要性能不是非常慢,性能就无所谓了。
我想将它用于早期开发和测试,以便我可以在主机上编译和运行前10次迭代。然后在ARM目标上交叉编译和微调性能。
当我使用像described here这样的TI DSP时,我已经习惯了这个开发周期。当我转向ARM NEON时,我想继续这一点。
这已经完成,还是我需要发明轮子?
答案 0 :(得分:5)
英特尔已a useful set of macros, neon2sse.h
将NEON内在函数转换为SSE。这使您可以在x86平台上使用NEON内在函数构建和测试C / C ++代码。