是否可以使用numpy.memmap
将基于磁盘的大型字符串数组映射到内存中?
我知道它可以用于花车等等,但这个问题具体是关于字符串的。
我对固定长度和可变长度字符串的解决方案感兴趣。
解决方案可以自由决定任何合理的文件格式。
答案 0 :(得分:2)
如果所有字符串都具有相同的长度,如术语“数组”所示,这很容易实现:
a = numpy.memmap("data", dtype="S10")
将是长度为10的字符串的示例。
编辑:由于显然字符串长度不同,您需要索引文件以允许O(1)项访问。这需要读取整个文件一次并将所有字符串的起始索引存储在内存中。不幸的是,我认为没有一种纯粹的NumPy索引方法,如果没有创建一个与内存中的文件大小相同的数组。但是,在提取索引之后,可以删除此数组。
答案 1 :(得分:1)
最灵活的选择是切换到数据库或其他更复杂的磁盘文件结构。
然而,你可能有一些很好的理由认为你要把事情保存为纯文本文件......
因为您可以控制文件的创建方式,所以只需要写出第二个文件,该文件只包含另一个文件中每个字符串的起始位置(以字节为单位)。
这需要更多的工作,但你基本上可以这样做:
class IndexedText(object):
def __init__(self, filename, mode='r'):
if mode not in ['r', 'w', 'a']:
raise ValueError('Only read, write, and append is supported')
self._mainfile = open(filename, mode)
self._idxfile = open(filename+'idx', mode)
if mode != 'w':
self.indicies = [int(line.strip()) for line in self._idxfile]
else:
self.indicies = []
def __enter__(self):
return self
def __exit__(self, type, value, traceback):
self._mainfile.close()
self._idxfile.close()
def __getitem__(self, idx):
position = self.indicies[idx]
self._mainfile.seek(position)
# You might want to remove the automatic stripping...
return self._mainfile.readline().rstrip('\n')
def write(self, line):
if not line.endswith('\n'):
line += '\n'
position = self._mainfile.tell()
self.indicies.append(position)
self._idxfile.write(str(position)+'\n')
self._mainfile.write(line)
def writelines(self, lines):
for line in lines:
self.write(line)
def main():
with IndexedText('test.txt', 'w') as outfile:
outfile.write('Yep')
outfile.write('This is a somewhat longer string!')
outfile.write('But we should be able to index this file easily')
outfile.write('Without needing to read the entire thing in first')
with IndexedText('test.txt', 'r') as infile:
print infile[2]
print infile[0]
print infile[3]
if __name__ == '__main__':
main()