为什么这个Haskell程序比同等的Python程序慢得多?

时间:2015-03-21 18:38:38

标签: python performance haskell io

作为编程挑战的一部分,我需要从stdin读取一系列以空格分隔的整数(在一行上),并将这些整数的总和打印到stdout。有问题的序列可以包含多达10,000,000个整数。

我有两个解决方案:一个用Haskell编写(foo.hs),另一个用等价的编写,用Python 2编写(foo.py)。不幸的是,(编译的)Haskell程序一直比Python程序慢,而且我在解释两个程序之间的性能差异时感到茫然;请参阅下面的基准部分。如果有的话,我会期望Haskell占上风......

我做错了什么?我如何解释这种差异?有没有一种简单的方法来加速我的Haskell代码?

(有关信息,我使用2010年中期的Macbook Pro和8Gb RAM,GHC 7.8.4和Python 2.7.9。)

foo.hs

main = print . sum =<< getIntList

getIntList :: IO [Int]
getIntList = fmap (map read . words) getLine

(使用ghc -O2 foo.hs编译)

foo.py

ns = map(int, raw_input().split())
print sum(ns)

基准

在下文中,test.txt由一行1000万个以空格分隔的整数组成。

# Haskell
$ time ./foo < test.txt 
1679257

real    0m36.704s
user    0m35.932s
sys     0m0.632s

# Python
$ time python foo.py < test.txt
1679257 

real    0m7.916s
user    0m7.756s
sys     0m0.151s

3 个答案:

答案 0 :(得分:66)

read很慢。对于批量解析,请使用bytestringtext原语或attoparsec

我做了一些基准测试。您的原始版本在我的计算机上以 23,9 秒运行。以下版本以 0.35 秒:

运行
import qualified Data.ByteString.Char8 as B
import Control.Applicative
import Data.Maybe
import Data.List
import Data.Char

main = print . sum =<< getIntList

getIntList :: IO [Int]
getIntList =
    map (fst . fromJust . B.readInt) . B.words <$> B.readFile "test.txt"

通过将解析器专门用于test.txt文件,我可以将运行时降低到 0.26 秒:

getIntList :: IO [Int]          
getIntList =
    unfoldr (B.readInt . B.dropWhile (==' ')) <$> B.readFile "test.txt"

答案 1 :(得分:27)

读取缓慢

快速阅读,from this answer,会让你降到5.5秒。

import Numeric
fastRead :: String -> Int
fastRead s = case readDec s of [(n, "")] -> n

字符串是链接列表

在Haskell中,String类型是一个链表。使用压缩表示(bytestring如果你真的只想要ascii但Text也非常快并且支持unicode)。如this answer所示,表现应该是紧张的。

答案 2 :(得分:4)

我冒昧地猜测你问题的很大一部分实际上是words。当你map read . words时,你实际在做的是:

  1. 扫描输入以查找空格,随时建立非空格列表。存在许多不同类型的空间,并且检查不是常见类型的空间的任何字符另外涉及对C函数的外部调用(慢)。我打算在某个时候解决这个问题,但是我还没有解决这个问题,即便如此,你仍然会在没有充分理由的情况下构建和丢弃列表,并在你真正想要检查的时候检查空格位数。
  2. 仔细阅读累积字符列表,尝试用它们编号。产生号码。累积的列表现在变成了垃圾。
  3. 返回第1步。
  4. 这是一种相当荒谬的方式。我相信你甚至可以使用像reads这样可怕的东西做得更好,但使用像ReadP这样的东西会更有意义。您还可以尝试各种类似于基于流的解析等内容;我不知道这是否会有所帮助。