apache-spark - rdd map collect无效

我有一个像这样的火花数据框：

+-----------+--------+----------+---------+
|   obj_type|   Cord1|     Cord2|    Cord3|
+-----------+--------+----------+---------+
|prox_fmr1t2|559.6759|-4684.2472|4281.8491|
| prox_never|560.0638|-4684.4120|4281.6181|
| prox_never|560.4613|-4684.3282|4281.6578|
+-----------+--------+----------+---------+

我试图将不同的obj_type存储到列表中。

之前有效：

obj_list_cur=obj.select("obj_type").distinct().rdd.map(lambda row : row[0]).collect()

但现在抛出错误：

Error from python worker:
  /opt/cloudera/parcels/Anaconda/bin/python: No module named pyspark

这些命令虽然有效：

obj_list_cur=obj.select("obj_type").distinct().rdd.collect()
obj_list_cur=obj.select("obj_type").distinct().collect()

我想知道为什么rdd.map（）。collect（）不起作用。可能导致此类行为的原因

rdd map collect无效

0 个答案: