Question

在x86 CPU上将浮点数转换为int的最快方法是什么。优选在C或组件中（可以在C中内嵌）用于以下任何组合：

32/64/80位浮点数 - ＆gt; 32/64位整数

我正在寻找一种比让编译器更快的技术。

Answer 1

这取决于您是否需要截断转换或舍入转换以及精确度。默认情况下，当您从float转到int时，C将执行截断转换。有FPU指令可以做到这一点，但它不是ANSI C转换，并且使用它有很多警告（例如了解FPU舍入状态）。由于你的问题的答案非常复杂，取决于你没有表达的一些变量，我推荐这篇文章：

http://www.stereopsis.com/FPU.html

Answer 2

使用SSE的打包转换是迄今为止最快的方法，因为您可以在同一指令中转换多个值。 ffmpeg有很多用于此的组装（主要用于将解码的音频输出转换为整数样本）;检查它是否有一些例子。

Answer 3

普通x86 / x87代码的一个常用技巧是强制float的尾数部分表示int。随后是32位版本。

64位版本是类比的。上面发布的Lua版本更快，但依赖于截断double到32位结果，因此它需要将x87单位设置为双精度，并且不能适用于双精度到64位的int转换。

这段代码的好处是它对于符合IEEE 754的所有平台都是完全可移植的，唯一的假设是将浮点舍入模式设置为最接近。注意：便携式的编译和工作。如果有的话，x86以外的平台通常不会从这种技术中受益很多。

static const float Snapper=3<<22;

union UFloatInt {
 int i;
 float f;
};

/** by Vlad Kaipetsky
portable assuming FP24 set to nearest rounding mode
efficient on x86 platform
*/
inline int toInt( float fval )
{
  Assert( fabs(fval)<=0x003fffff ); // only 23 bit values handled
  UFloatInt &fi = *(UFloatInt *)&fval;
  fi.f += Snapper;
  return ( (fi.i)&0x007fffff ) - 0x00400000;
}

Answer 4

如果可以保证运行代码的CPU与SSE3兼容（即使是Pentium 5，JBB），也可以允许编译器使用其FISTTP指令（即-msse3用于gcc）。它似乎做了应该总是这样做的事情：

http://software.intel.com/en-us/articles/how-to-implement-the-fisttp-streaming-simd-extensions-3-instruction/

请注意，FISTTP与FISTP不同（有问题，导致速度缓慢）。它是SSE3的一部分，但实际上是（唯一的）X87方面的改进。

其他然后X86 CPU可能会做转换就好了，无论如何。：）

Processors with SSE3 support

Answer 5

在汇编中有一条指令将浮点转换为int：使用FISTP指令。它将浮点堆栈中的值弹出，将其转换为整数，然后将其存储在指定的地址处。我不认为会有更快的方法（除非你使用像我不熟悉的MMX或SSE这样的扩展指令集。）

另一条指令FIST将值保留在FP堆栈上，但我不确定它是否适用于四字大小的目的地。

Answer 6

Lua代码库有以下代码片段（请访问www.lua.org查看src / luaconf.h）。如果你发现（SO发现）更快的方式，我相信他们会很激动。

哦，lua_Number意味着加倍。：）

/*
@@ lua_number2int is a macro to convert lua_Number to int.
@@ lua_number2integer is a macro to convert lua_Number to lua_Integer.
** CHANGE them if you know a faster way to convert a lua_Number to
** int (with any rounding method and without throwing errors) in your
** system. In Pentium machines, a naive typecast from double to int
** in C is extremely slow, so any alternative is worth trying.
*/

/* On a Pentium, resort to a trick */
#if defined(LUA_NUMBER_DOUBLE) && !defined(LUA_ANSI) && !defined(__SSE2__) && \
    (defined(__i386) || defined (_M_IX86) || defined(__i386__))

/* On a Microsoft compiler, use assembler */
#if defined(_MSC_VER)

#define lua_number2int(i,d)   __asm fld d   __asm fistp i
#define lua_number2integer(i,n)     lua_number2int(i, n)

/* the next trick should work on any Pentium, but sometimes clashes
   with a DirectX idiosyncrasy */
#else

union luai_Cast { double l_d; long l_l; };
#define lua_number2int(i,d) \
  { volatile union luai_Cast u; u.l_d = (d) + 6755399441055744.0; (i) = u.l_l; }
#define lua_number2integer(i,n)     lua_number2int(i, n)

#endif

/* this option always works, but may be slow */
#else
#define lua_number2int(i,d) ((i)=(int)(d))
#define lua_number2integer(i,d) ((i)=(lua_Integer)(d))

#endif

Answer 7

我假设需要截断，就像在“C”中写i = (int)f一样。

如果你有SSE3，你可以使用：

int convert(float x)
{
    int n;
    __asm {
        fld x
        fisttp n // the extra 't' means truncate
    }
    return n;
}

或者，使用SSE2（或在x64中可能无法使用内联汇编），您可以使用几乎同样快的速度：

#include <xmmintrin.h>
int convert(float x)
{
    return _mm_cvtt_ss2si(_mm_load_ss(&x)); // extra 't' means truncate
}

在较旧的计算机上，可以选择手动设置舍入模式并使用普通fistp指令执行转换。这可能只适用于浮点数组，否则必须注意不要使用任何会使编译器改变舍入模式的构造（例如转换）。它是这样完成的：

void Set_Trunc()
{
    // cw is a 16-bit register [_ _ _ ic rc1 rc0 pc1 pc0 iem _ pm um om zm dm im]
    __asm {
        push ax // use stack to store the control word
        fnstcw word ptr [esp]
        fwait // needed to make sure the control word is there
        mov ax, word ptr [esp] // or pop ax ...
        or ax, 0xc00 // set both rc bits (alternately "or ah, 0xc")
        mov word ptr [esp], ax // ... and push ax
        fldcw word ptr [esp]
        pop ax
    }
}

void convertArray(int *dest, const float *src, int n)
{
    Set_Trunc();
    __asm {
        mov eax, src
        mov edx, dest
        mov ecx, n // load loop variables

        cmp ecx, 0
        je bottom // handle zero-length arrays

    top:
        fld dword ptr [eax]
        fistp dword ptr [edx]
        loop top // decrement ecx, jump to top
    bottom:
    }
}

请注意，内联汇编仅适用于Microsoft的Visual Studio编译器（也许是Borland），必须将其重写为GNU程序集才能使用gcc进行编译。然而，具有内在函数的SSE2解决方案应该是非常便携的。

不同的SSE2内在函数或通过手动将FPU控制字设置为不同的舍入模式，可以实现其他舍入模式。

Answer 8

如果您真的关心这个速度，请确保您的编译器正在生成FIST指令。在MSVC中，您可以使用/ QIfist see this MSDN overview

执行此操作

您还可以考虑使用SSE内在函数为您完成工作，请参阅英特尔的这篇文章：http://softwarecommunity.intel.com/articles/eng/2076.htm

Answer 9

由于MS在X64中使我们脱离内联汇编并迫使我们使用内在函数，因此我查找了要使用的内容。 MSDN doc为_mm_cvtsd_si64x提供了一个示例。

该示例有效，但效率非常低，使用2个双倍的未对齐加载，我们只需要一个加载，因此摆脱了额外的对齐要求。然后产生了许多不必要的负载和重新加载，但它们可以如下消除：

 #include <intrin.h>
 #pragma intrinsic(_mm_cvtsd_si64x)
 long long _inline double2int(const double &d)
 {
     return _mm_cvtsd_si64x(*(__m128d*)&d);
 }

结果：

        i=double2int(d);
000000013F651085  cvtsd2si    rax,mmword ptr [rsp+38h]  
000000013F65108C  mov         qword ptr [rsp+28h],rax

可以在没有内联汇编的情况下设置舍入模式，例如

    _control87(_RC_NEAR,_MCW_RC);

其中舍入到最近是默认值（无论如何）。

我猜想，是否要在每次通话中设置舍入模式或假设它将被恢复（第三方库）的问题必须通过经验来回答。您必须为float.h和相关常量添加_control87()。

而且，不，这不会以32位工作，所以继续使用FISTP指令：

_asm fld d
_asm fistp i

Answer 10

通常，您可以信任编译器高效且正确。通过为编译器中已存在的东西滚动自己的函数，通常无法获得任何东西。

在x86上将float转换为int的最快方法是什么

10 个答案: