Question

我在运行pyspark时遇到了库错误（来自ipython-notebook），我想在我的RDD包含的Statistics.chiSqTest(obs)操作中使用来自pyspark.mllib.stat的{{1}}（密钥），list（int））对。

在主节点上，如果我将RDD收集为地图，并迭代这些值，我就没有问题

.mapValues

但如果我直接在RDD上做同样的事情我会遇到问题

keys_to_bucketed = vectors.collectAsMap()
keys_to_chi = {key:Statistics.chiSqTest(value).pValue for key,value in keys_to_bucketed.iteritems()}

导致以下异常

keys_to_chi = vectors.mapValues(lambda vector: Statistics.chiSqTest(vector))
keys_to_chi.collectAsMap()

我早期在我的spark安装中遇到问题没有看到numpy，mac-osx有两个python安装（一个来自brew，另一个来自操作系统），但我认为我已经解决了这个问题。这里奇怪的是，这是与spark安装一起发布的python库之一（我以前的问题是numpy）。

Answer 1

正如您在评论中注意到的那样，工作节点上的sc为None。 SparkContext仅在驱动程序节点上定义。