我正在尝试构造一个大的稀疏矩阵,每个矢量或它的捆绑都是从目录中的单独文件中读取的。按300个向量空间维度,我的数据量约为300万。
为构造稀疏矩阵,我想使两部分平行:并行读取所有目录(由于IO限制,由于os.walk无法并行化-不确定100%确定),并更新文件的同步队列,然后在sciPy压缩的稀疏行矩阵中建立一个同步的稀疏矩阵。
我完成了我可以毫无问题地共享代码的第一部分,但是我想知道是否放置线程。锁定numpy / sciPy稀疏矩阵由于成本而适得其反,因为我可能正在加载每个最坏情况下来自单个文件的向量。
我正在争论是否将所有内容输出到单个csv然后从中重新构建是否会使我的生活更轻松? (因为对于文件I / O,我不需要通过创建threading.Lock来重新发明轮子)
非常感谢您提出任何意见,