应用错误收集

我正在尝试构造一个大的稀疏矩阵，每个矢量或它的捆绑都是从目录中的单独文件中读取的。按300个向量空间维度，我的数据量约为300万。

为构造稀疏矩阵，我想使两部分平行：并行读取所有目录（由于IO限制，由于os.walk无法并行化-不确定100％确定），并更新文件的同步队列，然后在sciPy压缩的稀疏行矩阵中建立一个同步的稀疏矩阵。

我完成了我可以毫无问题地共享代码的第一部分，但是我想知道是否放置线程。锁定numpy / sciPy稀疏矩阵由于成本而适得其反，因为我可能正在加载每个最坏情况下来自单个文件的向量。

我正在争论是否将所有内容输出到单个csv然后从中重新构建是否会使我的生活更轻松？（因为对于文件I / O，我不需要通过创建threading.Lock来重新发明轮子）

非常感谢您提出任何意见，