我最近发现了 dask,它似乎是解决许多与缩放相关的数字运算问题的好方法。在开始使用该平台之前,我有几个与我的用例场景相关的问题,我想澄清一下:
过去,我编写的代码会使用 pyarrow 的 api 来读取和格式化 .csv 文件。有没有办法从 pyarrow 系列或带有 dask 的表中创建一个 dask 数组而无需复制,或者我是否需要使用 dask 的 csv 读取功能来输入 csv 文件?这位读者是否使用 Pandas 作为后端?
我希望能够灵活地对当前可能未在 dask 中实现的数组/数据集执行操作。这些是否需要通过诸如 dask 的广义 ufunc 或映射/归约操作之类的东西来完成,或者 dask 数组是底层数组的薄包装器,并且函数可以对数组本身进行操作?我能否为 Python 编写 C/C++ 扩展并让它们与 dask 一起使用?