无法在gcloud dataproc spark cluster上的pyspark shell中导入graphframes

时间:2018-05-14 08:47:20

标签: apache-spark pyspark gcloud google-cloud-dataproc graphframes

通过gcloud控制台创建了一个带有以下选项的火花簇

gcloud dataproc集群创建集群名称 - 区域us-east1 --num-masters 1 --num-workers 2 --master-machine-type n1-standard-2 --worker- 机器类型n1-standard-1 --metadata spark-packages = graphframes:graphframes:0.2.0-spark2.1-s_2.11

在spark主节点上 - 按如下方式启动了pyspark shell:

pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11

...

在spark-packages中找到了graphframes#graphframes; 0.2.0-spark2.0-s_2.11

[SUCCESSFUL] graphframes#graphframes; 0.2.0-spark2.0-s_2.11!graphframes.jar(578ms)

...

    graphframes#graphframes;0.2.0-spark2.0-s_2.11 from spark-packages in [default]
    org.scala-lang#scala-reflect;2.11.0 from central in [default]
    org.slf4j#slf4j-api;1.7.7 from central in [default]
    ---------------------------------------------------------------------
    |                  |            modules            ||   artifacts   |
    |       conf       | number| search|dwnlded|evicted|| number|dwnlded|
    ---------------------------------------------------------------------
    |      default     |   5   |   5   |   5   |   0   ||   5   |   5   |
    ---------------------------------------------------------------------

...

使用Python 2.7.9版(默认,2016年6月29日13:08:31) SparkSession可用作“spark”。

>>> from graphframes import *

追踪(最近一次通话):   文件“”,第1行,in ImportError:没有名为graphframes的模块

如何在gcloud dataproc spark cluster上加载graphframe?

1 个答案:

答案 0 :(得分:1)

似乎是一个众所周知的问题,你已经跳过了箍,让它在pyspark中运行:https://github.com/graphframes/graphframes/issues/238https://github.com/graphframes/graphframes/issues/172