
时间:2014-04-26 18:35:37

标签: performance haskell ghc

为了将性能与this GHC bug中速度慢的列表进行比较 我试图尽可能快地得到以下循环:

{-# LANGUAGE BangPatterns #-}

module Main (main) where

import Control.Monad
import Data.Word

main :: IO ()
main = do
  loop (maxBound :: Word32) $ \i -> do
    when (i `rem` 100000000 == 0) $
      print (fromIntegral i / fromIntegral (maxBound :: Word32))

loop :: Word32 -> (Word32 -> IO ()) -> IO ()
loop n f = go 0
    go !i | i == n = return ()
    go !i          = f i >> go (i + 1)

使用ghc -O loop.hs编译。

但是,在我的计算机上运行此操作需要50秒 - 比同等C程序慢10倍

#include "limits.h"
#include "stdint.h"
#include "stdio.h"

int main(int argc, char const *argv[])
  for (uint32_t i = 0; i < UINT_MAX; ++i)
    if (i % 100000000 == 0) printf("%f\n", (float) i / (float) UINT_MAX );
  return 0;

使用gcc -O2 -std=c99 -o testc test.c编译。

使用新发布的GHC 7.8或使用-O2并未改善性能。

但是,使用-fllvm标记进行编译(在任何一个ghc版本上)都会带来 10x 的速度提升,从而使性能与C相提并论。


  1. 为什么GHC的原生代码对我的loop来说要慢得多?
  2. 有没有办法改善我的循环,以便在没有-fllvm的情况下也很快,或者这已经是Word32上最快的IO循环了?

2 个答案:

答案 0 :(得分:11)

让我们检查一下装配。我稍微修改了主函数,使输出变得更清晰(但性能保持不变)。我使用GHC 7.8.2和-O2。

main :: IO ()
main = do
  loop (maxBound :: Word32) $ \i -> do
    when (i `rem` 100000000 == 0) $
      putStrLn "foo"


Native Codegen

.Lc3JD: /* check if there's enough space for stack growth */
    leaq -16(%rbp),%rax
    cmpq %r15,%rax
    jb .Lc3JO /* this jumps to some GC code that grows the stack, then
                 reenters the main closure */
    movl $4294967295,%eax /* issue: loading the bound on every iteration */
    cmpq %rax,%r14
    jne .Lc3JB
   /* Return from main. Code omitted */
.Lc3JB: /* test the index for modulus */
    movl $100000000,%eax /* issue: unnecessary moves */
    movq %rax,%rbx      
    movq %r14,%rax
    xorq %rdx,%rdx
    divq %rbx /* issue: doing the division (llvm and gcc avoid this) */
    testq %rdx,%rdx
    jne .Lc3JU
   /* do the printing. Code omitted. */
   /* increment index and (I guess) restore registers messed up by the printing */
    movq 8(%rbp),%rax
    incq %rax  
    movl %eax,%r14d
    addq $16,%rbp
    jmp Main_zdwa_info
    leaq 1(%r14),%rax   /*issue: why not just increment r14? */
    movl %eax,%r14d     
    jmp Main_zdwa_info


/* code omitted: the same stack-checking stuff as in native */
    movl    $4294967295, %esi /* load the bound */
    movabsq $-6067343680855748867, %rdi /*load a magic number for the modulus */
    jmp .LBB1_2
    incl    %ecx
    cmpq    %rsi, %rcx
    je  .LBB1_6 /* check bound */

    /* do the modulus with two multiplications, a shift and a magic number */
    /* note : gcc does the same reduction */ 
    movq    %rcx, %rax
    mulq    %rdi
    shrq    $26, %rdx
    imulq   $100000000, %rdx, %rax  
    cmpq    %rax, %rcx
    jne .LBB1_4 
    /* Code omitted: print, then return to loop beginning */
    /* Code omitted: return from main */


  • 两个程序集中都不存在IO开销。零字节RealWorld状态令牌显然不存在。

  • 与LLVM相比,Native codegen不会做太多的力量减少,LLVM很容易将模数转换为乘法,移位和幻数。

  • Native codegen在每次迭代时重做堆栈空间检查,而LLVM则没有。然而,它似乎并不是一个重要的开销。

  • 本地codegen在循环和寄存器分配方面非常糟糕。它会在寄存器周围进行混洗,并在每次迭代时加载绑定。 LLVM在整洁中发出与手写代码相当的代码。





import Data.Word
main = go 0 where
    go :: Word32 -> IO ()
    go i | i == maxBound = return ()
    go i = go (i + 1)


答案 1 :(得分:0)


w2f :: Word32 -> Float
w2f = fromIntegral

然而,像这样计算循环的速度 更快:

main :: IO () 
main = forM_ [0, 100000000 .. mb] $ \i ->
    print (fromIntegral i / fromIntegral mb :: Float))
    where mb = maxBound :: Word32