为什么Apple Accelerate框架有时会很慢?

时间:2016-10-08 09:32:43

标签: swift macos loops simd accelerate-framework

我正在使用来自Apple的vecLib和Accelerate framework使用C和Swift 3.0代码作为基于 C lang 项目的动态库+我的代码和 Swift 游乐场

在使用1或者<来自SIMD指令的 framework 调用Apple的包装器的情况下当函数从接近1.000次的循环调用时,来自 framework 的4个元素计算函数(如vvcospif())慢于简单标准cos(x * PI)

我知道vvcospif()cos()之间的区别,我应该vvcospif()使用x * PI

在游乐场中的示例,您只需复制代码并运行它:

import Cocoa
import Accelerate

func cosine_interpolate(alpha: Float, a: Float, b: Float) -> Float {
    let ft: Float = alpha * 3.1415927;
    let f: Float = (1 - cos(ft)) * 0.5;

    return a + f*(b - a);
}

var start: Date = NSDate() as Date

var interp: Float;

for index in 0..<1000 {
   interp = cosine_interpolate(alpha: 0.25, a: 1.0, b: 0.75)
}

var end = NSDate();
var timeInterval: Double = end.timeIntervalSince(start);

print("cosine_interpolate in \(timeInterval) seconds")

func fast_cosine_interpolate(alpha: Float, a: Float, b: Float) -> Float {
    var x: Float = alpha
    var count: Int32 = 1

    var result: Float = 0
    vvcospif(&result, &x, &count)

    let SINSIN_HALF_X: Float = (1 - result) * 0.5;

    return a + SINSIN_HALF_X * (b - a);
}

start = NSDate() as Date

for index in 0..<1000 {
    interp = fast_cosine_interpolate(alpha: 0.25, a: 1.0, b: 0.75)
}

end = NSDate();
timeInterval = end.timeIntervalSince(start);

print("fast_cosine_interpolate in \(timeInterval) seconds")

我的问题是:

为什么vvcospif()在这个例子中很慢?

可能是因为vvcospif()它是Objective-C运行时下的包装器,并且转换数据结构/从英特尔SIMD复制内存 - &gt; Objective-C - &gt; Swift运行时慢于cos()

我的C代码+

也存在性能问题
#include <Accelerate/Accelerate.h>

vvcospif(resultVector, inputVector, &count);

inputVectorresultVector是带有1或2个元素的小数组或只是浮点变量时,并且循环调用~1.000.000次。

cos(x * PI)计算时间接近20毫秒。

vvcospif(x)处理一个floatfloat array[2] - 计算时间接近80毫秒!加速在哪里? :)

是的,在Xcode中我使用整个模块opt的编译器-O -whole-module-optimization优化。启用。

1 个答案:

答案 0 :(得分:7)

有关示例的更详细讨论,请参阅"Introduction to Fast Bezier (and Trying the Accelerate.framework)"

第一个基本问题是非内联函数调用非常昂贵。如果您可以在性能关键代码中提供帮助,则不需要函数调用。在模块中,编译器通常可以为您内联函数,并且可以为您内联部分stdlib。但是当你开始跨越模块障碍时,Swift通常无法优化呼叫。

SIMD功能的关键在于您以正确的格式设置所有数据,然后只调用一次。这样,函数调用的成本由您调用的SIMD优化代码组成。

但请记住,您不必调用Accelerate来获得SIMD优化。编译器完全能够注意到你已经编写了一个循环并将其转换为内联SIMD算法本身(并且它一直这样做)。因此,对于许多简单的问题,编译器无论如何都会赢。考虑一下:如果以{1}调用vvcospif比调用cos更快,那么他们不会那样实现cos吗?

我没有充分利用您的代码,但如果您想通过Accelerate提高其性能,您需要考虑如何安排所有输入数据,以便您可以使用大型调用vvcospif一次N.在这种情况下很可能循环(因为cos并不简单)会快得多。

如果您想在实践中获得加速的示例,以及如何整理数据,请参阅PinchText。此代码通过动画实现最多10次触摸的几千个字形的页面计算偏移(有关结果的信息,请参阅PinchText.mov)。特别要看adjustViewPositions:count:forTouchPoint:。注意count是如何大,并且数据是逐步转换的,没有循环。即使抛入(非常昂贵的)ObjC方法调用该方法并不重要,因为它只进行了一次。摆脱循环中的函数调用是性能编程的重要组成部分。