pyspark,你能以某种方式将pyspark的SparkContext传递给java对象

时间:2016-06-14 17:44:18

标签: apache-spark pyspark py4j

因此,根据众所周知的火花虫/设计限制https://issues.apache.org/jira/browse/SPARK-2243,您无法拥有多个SparkContexts。现在,我正在做这个非常丑陋的python和Scala的混合,我有一个Scala方法,期望SparkContext作为参数。我可以以某种方式在py4j中实例化此Scala对象,然后将其传递给pyspark的SparkContext(在pyspark shell中导出为sc)。我的理解是sc是一个围绕Scala对象的瘦包装器,但是我无法弄清楚如何将它转换为java / scala类并将其作为参数传递给我的Scala方法。

1 个答案:

答案 0 :(得分:2)

您可以在Scala中调用SparkContext.getOrCreate()来获取PySpark创建的有效SparkContext