我编写了一个神经网络分类器,该分类器可以采集海量图像(每张图像约1-3 GB),将其打补丁,然后将补丁分别通过网络传递。培训进行的真的很慢,因此我对其进行了基准测试,发现花费大约50秒钟的时间将补丁从一个图像加载到内存(使用Openslide library),并且仅需约.5 s使它们通过模型。
但是,我正在使用1.5Tb RAM的超级计算机,其中只有约26 Gb的内存正在使用。数据集总计约500Gb。我的想法是,如果我们可以将整个数据集加载到内存中,它将极大地加快训练速度。但是我正在与一个研究团队合作,我们正在多个Python脚本之间进行实验。因此,理想情况下,我想将一个脚本中的整个数据集加载到内存中,并能够在所有脚本中对其进行访问。
更多详细信息:
.tif
格式存储。我发现了许多有关如何在多个Python脚本之间共享Python对象或内存中的原始数据的帖子:
在多处理模块中使用SyncManager和BaseManager的服务器进程| Example 1 | Example 2 | Docs - Server Processes | Docs - SyncManagers
Manager
对象在发送对象之前先腌制对象,这可能会减慢速度。mmap
将文件映射到virtual memory, not physical memory-它会创建一个临时文件。Python的sysv_ipc模块。 This demo看起来很有前途。
multi-processing
模块中可能只有lower level exposure个可用的东西?我还找到了this list个Python中的IPC /网络选项。
一些人讨论服务器-客户端设置,一些人讨论序列化/反序列化,我担心这将比从磁盘读取花费更多的时间。我没有找到关于这些问题是否会改善I / O性能的问题。
我们不仅需要在脚本之间共享Python对象/内存;我们需要在Docker容器之间共享它们。
Docker documentation很好地解释了--ipc
标志。根据文档运行的信息对我来说有意义:
docker run -d --ipc=shareable data-server
docker run -d --ipc=container:data-server data-client
但是,当我在如上所述设置了--ipc
连接的单独容器中运行客户端和服务器时,它们无法相互通信。我读过的SO问题(1,2,3,4)没有解决单独的Docker容器中Python脚本之间共享内存的集成。>
docker run --ipc=<mode>
集成在一起? (共享IPC名称空间甚至是跨Docker容器共享内存的最佳方法吗?)这是我在单独容器中的Python脚本之间共享内存的幼稚方法。当Python脚本在同一容器中运行时有效,但在单独的容器中运行时无效。
server.py
from multiprocessing.managers import SyncManager
import multiprocessing
patch_dict = {}
image_level = 2
image_files = ['path/to/normal_042.tif']
region_list = [(14336, 10752),
(9408, 18368),
(8064, 25536),
(16128, 14336)]
def load_patch_dict():
for i, image_file in enumerate(image_files):
# We would load the image files here. As a placeholder, we just add `1` to the dict
patches = 1
patch_dict.update({'image_{}'.format(i): patches})
def get_patch_dict():
return patch_dict
class MyManager(SyncManager):
pass
if __name__ == "__main__":
load_patch_dict()
port_num = 4343
MyManager.register("patch_dict", get_patch_dict)
manager = MyManager(("127.0.0.1", port_num), authkey=b"password")
# Set the authkey because it doesn't set properly when we initialize MyManager
multiprocessing.current_process().authkey = b"password"
manager.start()
input("Press any key to kill server".center(50, "-"))
manager.shutdown
client.py
from multiprocessing.managers import SyncManager
import multiprocessing
import sys, time
class MyManager(SyncManager):
pass
MyManager.register("patch_dict")
if __name__ == "__main__":
port_num = 4343
manager = MyManager(("127.0.0.1", port_num), authkey=b"password")
multiprocessing.current_process().authkey = b"password"
manager.connect()
patch_dict = manager.patch_dict()
keys = list(patch_dict.keys())
for key in keys:
image_patches = patch_dict.get(key)
# Do NN stuff (irrelevant)
当这些脚本在同一容器中运行时,这些脚本可以很好地共享图像。但是当它们在单独的容器中运行时,如下所示:
# Run the container for the server
docker run -it --name cancer-1 --rm --cpus=10 --ipc=shareable cancer-env
# Run the container for the client
docker run -it --name cancer-2 --rm --cpus=10 --ipc=container:cancer-1 cancer-env
我收到以下错误:
Traceback (most recent call last):
File "patch_client.py", line 22, in <module>
manager.connect()
File "/usr/lib/python3.5/multiprocessing/managers.py", line 455, in connect
conn = Client(self._address, authkey=self._authkey)
File "/usr/lib/python3.5/multiprocessing/connection.py", line 487, in Client
c = SocketClient(address)
File "/usr/lib/python3.5/multiprocessing/connection.py", line 614, in SocketClient
s.connect(address)
ConnectionRefusedError: [Errno 111] Connection refused
答案 0 :(得分:4)
我建议您尝试使用tmpfs。
这是一项Linux功能,允许您创建一个虚拟文件系统,所有文件系统都存储在RAM中。这样可以非常快速地访问文件,并且只需要设置一个bash命令即可。
除了非常快速和直截了当之外,它在您的情况下还具有许多优点:
cp
将数据集放入tmpfs
tmpfs
可以调整页面并将其交换到硬盘驱动器上。如果您必须在没有可用RAM的服务器上运行此文件,则可以将所有文件都放在具有普通文件系统的硬盘驱动器上,而根本不用触摸代码。使用步骤:
sudo mount -t tmpfs -o size=600G tmpfs /mnt/mytmpfs
cp -r dataset /mnt/mytmpfs
在某些情况下,
ramfs
可能比tmpfs
更快,因为它没有实现页面交换。要使用它,只需按照上面的说明将tmpfs
替换为ramfs
。
答案 1 :(得分:-1)
我认为shared memory
或mmap
解决方案是正确的。
共享内存:
首先在服务器进程中读取内存中的数据集。对于python,只需使用multiprocessing
包装器在进程之间的共享内存中创建对象,例如:multiprocessing.Value或multiprocessing.Array,然后创建Process并将共享对象作为args传递。
mmap:
将数据集存储在主机上的文件中。然后,每个容器将文件安装到容器中。如果一个容器打开文件并将文件映射到其虚拟内存,则另一个容器在打开文件时将不需要从磁盘读取文件到内存,因为该文件已在物理内存中。
P.S。我不确定cpython如何在进程之间实现大型共享内存,可能cpython共享内存在内部使用mmap
。