如何在企业代理后面使用spark-shell解析外部包?

时间:2016-04-17 12:20:01

标签: apache-spark proxy dependencies ivy

我想在公司代理后面使用外部包运行spark-shell。不幸的是,通过--packages选项传递的外部包未得到解决。

例如,运行时

bin/spark-shell --packages datastax:spark-cassandra-connector:1.5.0-s_2.10

cassandra连接器包未解析(卡在最后一行):

Ivy Default Cache set to: /root/.ivy2/cache
The jars for the packages stored in: /root/.ivy2/jars
:: loading settings :: url = jar:file:/opt/spark/lib/spark-assembly-1.6.1-hadoop2.6.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
datastax#spark-cassandra-connector added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
        confs: [default]

一段时间后,连接超时,包含如下错误消息:

:::: ERRORS
        Server access error at url https://repo1.maven.org/maven2/datastax/spark-cassandra-connector/1.5.0-s_2.10/spark-cassandra-connector-1.5.0-s_2.10.pom (java.net.ConnectException: Connection timed out)

当我使用公司代理停用VPN时,包将立即解析并下载。

到目前为止我尝试了什么:

将代理公开为环境变量:

export http_proxy=<proxyHost>:<proxyPort>
export https_proxy=<proxyHost>:<proxyPort>
export JAVA_OPTS="-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>"
export ANT_OPTS="-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>"

使用额外的java选项运行spark-shell:

bin/spark-shell --conf "spark.driver.extraJavaOptions=-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>" --conf "spark.executor.extraJavaOptions=-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort>" --packages datastax:spark-cassandra-connector:1.6.0-M1-s_2.10

是否有其他配置可能性我缺席了?

7 个答案:

答案 0 :(得分:19)

找到正确的设置:

bin/spark-shell --conf "spark.driver.extraJavaOptions=-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort> -Dhttps.proxyHost=<proxyHost> -Dhttps.proxyPort=<proxyPort>" --packages <somePackage>

必须将http和https代理设置为额外的驱动程序选项。 JAVA_OPTS似乎没有做任何事情。

答案 1 :(得分:4)

这对我来说是火花1.6.1:

bin\spark-shell --driver-java-options "-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort> -Dhttps.proxyHost=<proxyHost> -Dhttps.proxyPort=<proxyPort>" --packages <package>

答案 2 :(得分:2)

如果在您的操作系统上正确配置了代理,您可以使用java属性:java.net.useSystemProxies

--conf "spark.driver.extraJavaOptions=-Djava.net.useSystemProxies=true"

因此将配置代理主机/端口和无代理主机。

答案 3 :(得分:1)

添加

spark.driver.extraJavaOptions=-Dhttp.proxyHost=<proxyHost> -Dhttp.proxyPort=<proxyPort> -Dhttps.proxyHost=<proxyHost> -Dhttps.proxyPort=<proxyPort>

$SPARK_HOME/conf/spark-defaults.conf对我有用。

答案 4 :(得分:1)

如果需要身份验证才能使用代理,可以在默认的conf文件中使用以下内容:

spark.driver.extraJavaOptions  -Dhttp.proxyHost= -Dhttp.proxyPort= -Dhttps.proxyHost= -Dhttps.proxyPort= -Dhttp.proxyUsername= -Dhttp.proxyPassword= -Dhttps.proxyUsername= -Dhttps.proxyPassword= 

答案 5 :(得分:1)

一直在与pyspark奋斗,直到发现:

@Tao Huang的答案:

bin/pyspark --driver-java-options="-Dhttp.proxyUser=user -Dhttp.proxyPassword=password -Dhttps.proxyUser=user -Dhttps.proxyPassword=password -Dhttp.proxyHost=proxy -Dhttp.proxyPort=port -Dhttps.proxyHost=proxy -Dhttps.proxyPort=port" --packages [groupId:artifactId]

即应该是-Dhttp(s)。 proxyUser ,而不是... proxyUsername

答案 6 :(得分:0)

在带有spark-2.0.0-bin-hadoop2.7的Windows 7上,我将spark.driver.extraJavaOptions设置为%SPARK_HOME%"\spark-2.0.0-bin-hadoop2.7\conf\spark-defaults.conf,如:

spark.driver.extraJavaOptions -Dhttp.proxyHost=hostname -Dhttp.proxyPort=port -Dhttps.proxyHost=host -Dhttps.proxyPort=port