Azure Databricks:在没有Internet访问的情况下在虚拟网络下导入PyPI库

时间:2019-06-21 09:37:48

标签: azure azure-databricks

我们有一个带有虚拟网络的Azure Databricks群集,以及一个仅允许群集节点之间建立连接而不能访问Internet的网络安全组。

当我们尝试通过PyPI导入库并启动集群时,该错误由集群给出:

  

警告:正在重试(重试(总计= 4,连接=无,读取=无,   断开连接后,重定向=无,状态=无))   'NewConnectionError(':无法建立新的连接:   [Errno 101]网络无法访问',)':/ simple / azure-datalake-store /

奇怪的是,如果您尝试导入Maven库,则可以正常工作。

Databricks libraries

任何人都知道如何解决此问题。

谢谢。

2 个答案:

答案 0 :(得分:0)

Log4j附带有数据块,因此它可能是在本地缓存中找到的。如果您在Maven上随机尝试某些操作,它将失败。

关于pypi-好吧,您无法直接连接,因此无法以这种方式添加库。而是手动将库下载到桌面,然后从ui手动安装。

您将需要手动将库文件上传到dbfs。使用cli或powershell执行此操作。然后在工作区中使用添加>库选项来添加库。链接到您的文件位置。

答案 1 :(得分:0)

我们已经在网络安全组中打开了ip范围151.101.0.0/16和端口443,并且PYPI库可用