我最近实现了基于mmap
的文件读取,并直接遇到了奇怪的行为。相关代码是:
-- | map whole aedat file into memory and return it as a vector of events
-- TODO what are the finalizing semantics of this?
mmapAERData :: S.Storable a => FilePath -> IO (S.Vector (AER.Event a))
mmapAERData name = do
-- mmap file into memory and find the offset behind the header
bs <- dropHeader <$> mmapFileByteString name Nothing
-- some conversion is necessary to get the 'ForeignPtr' from
-- a 'ByteString'
B.unsafeUseAsCString bs $ \ptr -> do
fptr <- newForeignPtr_ ptr
let count = B.length bs `div` 8 -- sizeof one event
return $ S.unsafeFromForeignPtr0 (castForeignPtr fptr) count
一些解释:AEDat格式基本上是两个Word32的长列表。一个编码地址,另一个编码时间戳。在此之前,我在dropHeader
函数中放入了一些标题文本行。如果绝对必要,我可以直接在ForeignPtr
上执行此操作,但我更喜欢使用适用于ByteStrings
的常用功能。
可以找到Storable
个实例here和here。我不确定这里的对齐,但我怀疑8的对齐应该是正确的。
读取数据效果很好,但过了一段时间后,内存似乎以某种方式被破坏了:
>>> es <- DVS.mmapDVSData "dataset.aedat"
>>> es S.! 1000
Event {address = Address {polarity = D, posX = 6, posY = 50}, timestamp = 74.771407s}
>>> :type es
es :: S.Vector (DVS.Event DVS.Address)
>>> _ <- evaluate (V.convert es :: V.Vector (DVS.Event DVS.Address))
>>> es S.! 1000
Event {address = Address {polarity = D, posX = 0, posY = 44}, timestamp = 0s}
显然访问es
的所有元素都会以某种方式破坏我的记忆。或垃圾收集器回收它?不管怎样,这很奇怪。我该怎么办?
答案 0 :(得分:1)
mmapFileByteString
执行mmap
,创建ForeignPtr
,并将ForeignPtr
添加到ByteString
。 unsafeUseAsCString
将ForeignPtr
强制转换为Ptr
,然后您可以从中创建新的ForeignPtr
。然后,您将第二个ForeignPtr
与S.unsafeFromForeignPtr0
一起使用,以创建一个向量。
让两个ForeignPtr
指向同一个内存是不行的。 GHC运行时将它们视为两个独立的对象。在对ByteString
的所有引用都消失后,将调用其ForeignPtr
的终结器,取消分配mmap
并回收底层内存。这使第二个ForeignPtr
指向无效区域。
此处的解决方案是使用Data.ByteString.Internal.toForeignPtr
从ForeignPtr
中提取并重复使用ByteString
。将unsafeUseAsCString
块替换为:
let (fptr,offset,len) = Data.ByteString.Internal.toForeignPtr bs
-- it might be worthwhile to assert that offset == 0
let count = len `div` 8
return $ S.unsafeFromForeignPtr0 (castForeignPtr fptr) count
恕我直言,这里真正的解决方案是不要乱用所有这些东西。通常只需将文件读入ByteString
,从中拉出8字节的子串,然后手动将它们转换为Event
s。所有这些mmap
和ForeignPtr
的东西都是危险的,并不比安全和正确地做事快很多。如果您想要绝对最快的性能而不考虑安全性,请在C。中编程