我在已知限制部分的 Dask 文档中阅读了the following:
[Dask]不容错。任何工作人员的故障都可能使系统崩溃。
在出现错误的情况下不会正常失败
但我没有提到容错 in the comparison with Spark。当前是"Reasons why you might choose Spark":
- 您更喜欢Scala或SQL语言
- 您主要是JVM 基础架构和旧系统
- 您想要一个成熟可靠的业务解决方案
- 您主要是通过一些轻量级的机器学习来进行业务分析
- 您想要一个多合一的解决方案
我的问题:
答案 0 :(得分:6)
该文档页面集非常旧[em] ,并且不应该公开发布。我刚刚删除了它们。有关最新文档,请参见http://dask.pydata.org/en/latest/。
Dask容忍任何工人的流失。如果中央调度程序失败,它将失败。
答案 1 :(得分:1)
我目前正在使用 dask 包将大约 3600 万条记录加载到 DynamoDB,我正在为 dask 进程冻结的事实而苦苦挣扎。我将它们分成 2240 个独立的进程以跟踪每个进程,我可以说有时这些小进程也会被冻结。根据我的经验,我猜测 Dask 不是 Fault Tolerance 至少还不够好。
dask==2.30.0