我成功安装了 databricks-connect 并且它对我来说工作正常,但是由于某些原因,我想使用本地 SparkSession ,因此只需运行 SparkSeesion.builder.getOrCreate()
它将使用 databricks 集群而不是本地会话我的笔记本电脑,
任何想法请不要创建新的 virtualenv,
谢谢
答案 0 :(得分:0)
这是 Databricks 连接的默认行为 - 即使主节点是本地的,它也始终使用远程执行程序。但是,您的开发真的需要它吗?标准方法可能是在本地使用 pyspark,并从 CI/CD 管道对 Databricks 运行测试 - 这种方法由 instance upgrade guide 演示,其中使用 pyspark 在本地执行单元测试,以及集成测试 - 在 Databricks 集群上,从 CI/CD 管道触发