如何在Databricks上使用Dask

时间:2019-06-04 12:53:52

标签: dask databricks dask-distributed azure-databricks

我想在Databricks上使用Dask。应该有可能(我看不出为什么不这样)。如果导入它,则会发生以下两种情况之一,要么得到ImportError,但是当我安装distributed来解决此DataBrick时,只会说Cancelled而不会引发任何错误。

2 个答案:

答案 0 :(得分:0)

我认为我们还没有听说过有人在数据块下使用Dask,但是只要是python,就有可能。

Dask的默认调度程序是线程,这是最有可能起作用的事情。在这种情况下,您甚至不需要安装distributed

对于“已取消”错误,听起来好像您正在使用分布式,并且猜测系统不允许您启动额外的进程(可以使用subprocess模块进行测试)。要变通,您可以

client = dask.distributed.Client(processes=False)

当然,如果确实是您需要的流程,那就不好了。另外,我也不知道如何暴露仪表板的端口。

答案 1 :(得分:0)

任何人在寻找答案,请选中此medium blogpost。为了防止人们在评论中遗漏此问题,我将其发布为答案。