rdd map collect无效

时间:2018-06-14 19:38:34

标签: apache-spark pyspark rdd collect

我有一个像这样的火花数据框:

+-----------+--------+----------+---------+
|   obj_type|   Cord1|     Cord2|    Cord3|
+-----------+--------+----------+---------+
|prox_fmr1t2|559.6759|-4684.2472|4281.8491|
| prox_never|560.0638|-4684.4120|4281.6181|
| prox_never|560.4613|-4684.3282|4281.6578|
+-----------+--------+----------+---------+

我试图将不同的obj_type存储到列表中。

之前有效:

obj_list_cur=obj.select("obj_type").distinct().rdd.map(lambda row : row[0]).collect()

但现在抛出错误:

Error from python worker:
  /opt/cloudera/parcels/Anaconda/bin/python: No module named pyspark

这些命令虽然有效:

obj_list_cur=obj.select("obj_type").distinct().rdd.collect()
obj_list_cur=obj.select("obj_type").distinct().collect()

我想知道为什么rdd.map()。collect()不起作用。可能导致此类行为的原因

0 个答案:

没有答案