Databricks Connect:无法在Azure上连接到远程集群,命令:“ databricks-connect test”停止

时间:2019-05-31 06:32:08

标签: azure apache-spark pyspark databricks azure-databricks

我尝试设置Databricks Connect,使其能够与已经在Azure上的Workspace上运行的远程Databricks群集一起使用。 当我尝试运行命令:“ databricks-connect test”时,它永远不会结束。

我关注官方documentation

我已经安装了最新的Anaconda版本3.7。 我创建了本地环境:         conda创建--name dbconnect python = 3.5

我已经在5.1版中安装了“ databricks-connect”,它与Azure Databricks上的群集配置相匹配。

    pip install -U databricks-connect==5.1.*

我已经将'databricks-connect configure设置如下:

    (base) C:\>databricks-connect configure
    The current configuration is:
    * Databricks Host: ******.azuredatabricks.net
    * Databricks Token: ************************************
    * Cluster ID: ****-******-*******
    * Org ID: ****************
    * Port: 8787

完成上述步骤后,我尝试为数据砖连接运行“ test”命令:

    databricks-connect test

,因此在警告MetricsSystem之后,该过程开始和停止,如下所示:

    (dbconnect) C:\>databricks-connect test
    * PySpark is installed at c:\users\miltad\appdata\local\continuum\anaconda3\envs\dbconnect\lib\site-packages\pyspark
    * Checking java version
    java version "1.8.0_181"
    Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
    Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)
    * Testing scala command
    19/05/31 08:14:26 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
    19/05/31 08:14:34 WARN MetricsSystem: Using default name SparkStatusTracker for source because neither spark.metrics.namespace nor spark.app.id is set. 

我希望该过程应该像官方documentation中那样进行下一步:

    * Testing scala command
    18/12/10 16:38:44 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
    18/12/10 16:38:50 WARN MetricsSystem: Using default name SparkStatusTracker for source because neither spark.metrics.namespace nor spark.app.id is set.
    18/12/10 16:39:53 WARN SparkServiceRPCClient: Now tracking server state for 5abb7c7e-df8e-4290-947c-c9a38601024e, invalidating prev state
    18/12/10 16:39:59 WARN SparkServiceRPCClient: Syncing 129 files (176036 bytes) took 3003 ms
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /___/ .__/\_,_/_/ /_/\_\   version 2.4.0-SNAPSHOT
          /_/

    Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152)
    Type in expressions to have them evaluated.
    Type :help for more information.

因此,在“ WARN MetricsSystem:使用默认名称SparkStatusTracker”之后,我的过程停止了。

我在做什么错?我应该再配置一些东西吗?

2 个答案:

答案 0 :(得分:0)

许多人似乎在Windows上的test命令中看到了此问题。但是,如果您尝试使用Databricks connect,它将可以正常工作。似乎可以忽略不计。

答案 1 :(得分:0)

运行时5.3或更低版本似乎未正式支持此功能。如果在更新运行时方面存在限制,我将确保将火花conf设置如下: spark.databricks.service.server.enabled true 但是,对于较旧的运行时,情况仍然可能会变糟。我建议在运行时5.5或6.1或更高版本中执行此操作。