如何创建并行化的张量对象?

时间:2021-01-31 14:58:36

标签: python dask dask-distributed dask-delayed

是否有通过 dask 将 numpy 数据转换为张量的标准工作流程?

  1. 通过 Dask Array (NumPy) 将原始数据读取到每个节点。
  2. 执行聚合操作以确定 OHE 类。
  3. 然后使用泛型函数将该数组转换为张量?
  4. 张量变换的输出作为 Dask Delayed 对象或每个 Dask Bag 元素 1 个样本保存在内存中?

嗯。也许第 3 步更多地是关于基于张量的库添加对迭代加载/读取 Dask 数组的支持。或者它可能正在扩展 Dask 以包含这些库的 Incremental Wrappers

<块引用>

许多人将 Dask 与 GPU 加速库(如 PyTorch 和 TensorFlow)一起使用,以管理多台机器上的工作负载。他们通常使用 Dask 的自定义 API,特别是 Delayed 和 Futures。 https://docs.dask.org/en/latest/gpu.html

0 个答案:

没有答案