Question

我正在使用Spark 1.6.2，开发一个Python Spark客户端（它以yarn-client模式运行）。这里重要的是，总是在客户端机器中，我无法激发 - 提交我的Python脚本，但我需要将脚本作为Python脚本运行。

在代码的某一点，我需要在HDFS中加载一个CSV文件作为Spark Dataframe（即使用SQL上下文）。如您所知，Spark 1.6.2对基于CSV的数据帧没有本机支持，并且必须使用Databricks spark-csv。

数据加载句子如下：

df = sql_context.read.load(format='com.databricks.spark.csv', path=url, header=True, inferSchema=False, delimiter=',')

问题是找不到com.databricks.spark.csv 。

我知道Databricks spark-csv jar必须下载并放在某处。问题是：在哪里？这是客户端计算机或群集中的要求吗？

由于我不知道，我在客户端计算机上尝试过此操作，但没有成功：

export PYTHONPATH=/path/where/jars/were/downloaded/。
conf = SparkConf().set('spark.jars', '/path/where/jars/were/downloaded/')。
conf = SparkConf().set('spark.driver.extraClassPath', '/path/where/jars/were/downloaded/')。 [ref]

我也在Spark集群中试过这个，但也没有成功：

通过Ambari设置自定义spark-defaults属性spark.jars。
通过Ambari设置自定义spark-defaults属性spark.driver.extraClassPath。

我会记住，--jars或--packages的命令行选项不适合我，因为我没有运行任何Spark脚本：）

其他解决方案，例如使用addJar()在Spark上下文中设置jar将不起作用，因为Spark 1.6.2没有实现它。

那么，关于我的代码如何找到Databricks spark-csv jar的任何想法？

以防万一，这是错误跟踪：

java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:77)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:102)
        at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119)
        at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:109)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
        at py4j.Gateway.invoke(Gateway.java:259)
        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
        at py4j.commands.CallCommand.execute(CallCommand.java:79)
        at py4j.GatewayConnection.run(GatewayConnection.java:209)
        at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.ClassNotFoundException: com.databricks.spark.csv.DefaultSource
        at java.net.URLClassLoader$1.run(URLClassLoader.java:359)
        at java.net.URLClassLoader$1.run(URLClassLoader.java:348)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:347)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4$$anonfun$apply$1.apply(ResolvedDataSource.scala:62)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4$$anonfun$apply$1.apply(ResolvedDataSource.scala:62)
        at scala.util.Try$.apply(Try.scala:161)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4.apply(ResolvedDataSource.scala:62)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4.apply(ResolvedDataSource.scala:62)
        at scala.util.Try.orElse(Try.scala:82)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:62)
        ... 14 more

我读过的其他帖子......

提前致谢。

Answer 1

最后，我在Databricks Github发现了this问题，@ drorata的回答对我有用：

export PACKAGES="com.databricks:spark-csv_2.11:1.3.0"
export PYSPARK_SUBMIT_ARGS="--packages ${PACKAGES} pyspark-shell"

通过导出上述环境变量，将Databrick spark-csv包（和依赖项）下载到我的本地.ivy2文件夹，并在创建Spark上下文时自动上传到集群。

以编程方式将Databricks spark-csv添加到Spark 1.6.2客户端

1 个答案: