如何在自定义数据类型上执行内存映射IO?

时间:2015-07-17 12:36:24

标签: haskell mmap

设置

我最近实现了基于mmap的文件读取,并直接遇到了奇怪的行为。相关代码是:

-- | map whole aedat file into memory and return it as a vector of events
-- TODO what are the finalizing semantics of this?
mmapAERData :: S.Storable a => FilePath -> IO (S.Vector (AER.Event a))
mmapAERData name = do
    -- mmap file into memory and find the offset behind the header
    bs <- dropHeader <$> mmapFileByteString name Nothing
    -- some conversion is necessary to get the 'ForeignPtr' from
    -- a 'ByteString'
    B.unsafeUseAsCString bs $ \ptr -> do
      fptr <- newForeignPtr_ ptr
      let count = B.length bs `div` 8 -- sizeof one event
      return $ S.unsafeFromForeignPtr0 (castForeignPtr fptr) count

→ code in context

一些解释:AEDat格式基本上是两个Word32的长列表。一个编码地址,另一个编码时间戳。在此之前,我在dropHeader函数中放入了一些标题文本行。如果绝对必要,我可以直接在ForeignPtr上执行此操作,但我更喜欢使用适用于ByteStrings的常用功能。

可以找到Storable个实例herehere。我不确定这里的对齐,但我怀疑8的对齐应该是正确的。

问题

读取数据效果很好,但过了一段时间后,内存似乎以某种方式被破坏了:

>>> es <- DVS.mmapDVSData "dataset.aedat" 
>>> es S.! 1000
Event {address = Address {polarity = D, posX = 6, posY = 50}, timestamp = 74.771407s}
>>> :type es
es :: S.Vector (DVS.Event DVS.Address)
>>> _ <- evaluate (V.convert es :: V.Vector (DVS.Event DVS.Address))
>>> es S.! 1000
Event {address = Address {polarity = D, posX = 0, posY = 44}, timestamp = 0s}

显然访问es的所有元素都会以某种方式破坏我的记忆。或垃圾收集器回收它?不管怎样,这很奇怪。我该怎么办?

1 个答案:

答案 0 :(得分:1)

mmapFileByteString执行mmap,创建ForeignPtr,并将ForeignPtr添加到ByteStringunsafeUseAsCStringForeignPtr强制转换为Ptr,然后您可以从中创建新的ForeignPtr。然后,您将第二个ForeignPtrS.unsafeFromForeignPtr0一起使用,以创建一个向量。

让两个ForeignPtr指向同一个内存是不行的。 GHC运行时将它们视为两个独立的对象。在对ByteString的所有引用都消失后,将调用其ForeignPtr的终结器,取消分配mmap并回收底层内存。这使第二个ForeignPtr指向无效区域。

此处的解决方案是使用Data.ByteString.Internal.toForeignPtrForeignPtr中提取并重复使用ByteString。将unsafeUseAsCString块替换为:

let (fptr,offset,len) = Data.ByteString.Internal.toForeignPtr bs
-- it might be worthwhile to assert that offset == 0
let count = len `div` 8
return $ S.unsafeFromForeignPtr0 (castForeignPtr fptr) count
恕我直言,这里真正的解决方案是不要乱用所有这些东西。通常只需将文件读入ByteString,从中拉出8字节的子串,然后手动将它们转换为Event s。所有这些mmapForeignPtr的东西都是危险的,并不比安全和正确地做事快很多。如果您想要绝对最快的性能而不考虑安全性,请在C。

中编程