Dask支持哪些分布式文件系统?具体来说,从哪个文件系统可以读取dask.dataframe的?从Dask文档中我可以看到HDFS肯定是受支持的。是否支持任何其他分布式文件系统,例如Ceph等?
我可以在这里找到一些关于支持其他文件系统的想法的讨论:https://github.com/dask/distributed/issues/33但没有最终结论,除了HDFS比其他选项“更糟糕”。
感谢您的帮助!
答案 0 :(得分:1)
最简单的答案是,如果您可以将文件系统挂载到每个节点上,即它可以作为本地文件系统访问,那么您可以使用任何分布式系统 - 无需对任何给定的原始位置进行任何性能优化文件块。
我可以从元数据服务获得数据位置(对于ceph来说也是如此),您可以将加载任务限制为仅在数据驻留的计算机上运行。这没有实现,但从用户方面可能不会太复杂。过去对hdfs做了类似的事情,但我们发现优化并不能证明代码的额外复杂性。
答案 1 :(得分:1)
Dask目前支持远程文件系统的文档以及如何支持其他文件系统可在此处获取: