标签: performance assembly parallel-processing arm
我偶然发现了一个专有的库,执行高度可并行化的操作。 (图像处理)
将使用该库的设备有8个ARM内核,但该库只占用其中一个。
编译器能够自动并行循环。 是否有工具,它可以检测二进制代码中的循环与它的依赖关系并修改代码进行并行化?