Haskell中的调试内存问题

时间:2019-06-08 14:47:47

标签: haskell space-leak

我正在尝试解决Haskell中整个《代码出现》系列。

我在解决2015/06 exercise时遇到内存问题,那里有很多说明来打开,关闭和切换网格上的灯。目的是计算最后点亮的灯的数量。

给出的指令被解析并存储为Instruction类型,这是类型定义:

data Instruction = Instruction Op Range deriving Show
data Op = Off | On | Toggle | Nop deriving Show
data Range = Range Start End deriving Show
type Start = Point
type End = Start
data Point = Point Int Int deriving Show

这是计算结果的代码。我试图通过使用类型类来抽象一个灯光是布尔值的事实

gridWidth, gridHeight :: Int
gridWidth = 1000
gridHeight = 1000

initialGrid :: Togglable a => Matrix a
initialGrid = matrix gridWidth gridHeight (const initialState)

instance Monoid Op where
  mempty = Nop

instance Semigroup Op where
  _ <> On = On
  _ <> Off = Off
  x <> Nop = x
  Off <> Toggle = On
  On <> Toggle = Off
  Toggle <> Toggle = Nop
  Nop <> Toggle = Toggle

class Togglable a where
  initialState :: a
  apply :: Op -> a -> a

instance Togglable Bool where
  initialState = False
  apply On = const True
  apply Off = const False
  apply Toggle = not
  apply Nop = id

-- Does the Range of the instruction apply to this matrix coordinate?
(<?) :: Range -> (Int, Int) -> Bool
(<?) (Range start end) (x, y) = let
  (Point x1 y1) = start
  (Point x2 y2) = end
  (mx, my) = (x-1, y-1) -- translate from matrix coords (they start from 1!)
  in and [
    mx >= min x1 x2, mx <= max x1 x2,
    my >= min y1 y2, my <= max y1 y2
  ]

stepGenerator :: Instruction -> Matrix Op
stepGenerator (Instruction op r) = let
  g coord = if r <? coord then op else Nop
  in matrix gridWidth gridHeight g

allStepsMatrix :: [Instruction] -> Matrix Op
allStepsMatrix = mconcat.map stepGenerator

finalGrid :: Togglable a => Matrix a -> Matrix Op -> Matrix a
finalGrid z op = fmap apply op <*> z

countOn :: Matrix Bool -> Integer
countOn = toInteger.foldr (\x -> if x then (+1) else id) 0

partA :: Challenge (String -> Integer)
partA = Challenge $ countOn.finalGrid initialGrid.allStepsMatrix.parse

解决方案将是partA内部返回的Integer。 parse有效并且类型为parse :: String -> [Instruction]

当我将gridWidthgridHeight设为1000时,代码就会编译并以较小的矩阵(例如10x10)运行,我遇到了out of memory错误,显然是由allStepsMatrix函数。

任何暗示这里可能有问题吗?完整代码为on GitHub

1 个答案:

答案 0 :(得分:4)

我强烈建议不要使用类型类。从每个类型只有几个有效的实现的意义上讲,类型类应该具有规律,应该是“稀有的”。我建议以printf("%p\n", ptr[0]); printf("%p\n", ptr[1]); printf("%p\n", ptr[2]); initialState作为参数,但这甚至是过大的,因为给定的指令对于任何非{{1 }}。只需直接在toggle上进行操作,就可以切出您编写的代码的很大一部分。但是,我不会为答案做任何更改。

无论如何,我认为问题可能是懒惰。 1000 * 1000 = 1000000,因此每个Bool的大小将为几兆字节。在64位计算机上,指针为8个字节,因此每个Matrix至少为8 MB,外加一些其他数据。您正在Matrix Bool中一起使用其中的300个(这是我从网站上获得的),但是由于您懒惰地执行此操作,因此所有300 个矩阵都同时存在,所以它位于最小 2.4 GB,仅用于结构本身。这3亿个指针中每个重击填充的成本也让自己知道了-一个重击至少是一个指针(8个字节,指向静态内存中的代码,再分配2.4 GB),再加上其有效负载,这意味着更多的指针,每个指针赋予您的计算机另外2.4 GB的内存压力。我建议Matrix

mconcat

Usnig deepseq允许它在恒定的堆栈空间中运行,但是instance NFData Op where rnf Off = () rnf On = () rnf Toggle = () rnf Nop = () -- rnf x = x `seq` () but I like to be explicit allStepsMatrix :: [Instruction] -> Matrix Op allStepsMatrix = foldl' (\x y -> force (x <> y)) mempty . map stepGenerator foldl'也可以工作,因为堆栈深度为300左右是无用的。 foldl意味着每个foldr的所有元素都将被求值。以前,每个矩阵都通过保留对它的引用来保持其活动状态,但是现在在评估元素时会删除这些引用,因此GC可以及时将其丢弃。我已经对此进行了测试,并且它可以在合理的时间内终止,并且占用的空间更好。