我有一个像这样的火花数据框:
+-----------+--------+----------+---------+
| obj_type| Cord1| Cord2| Cord3|
+-----------+--------+----------+---------+
|prox_fmr1t2|559.6759|-4684.2472|4281.8491|
| prox_never|560.0638|-4684.4120|4281.6181|
| prox_never|560.4613|-4684.3282|4281.6578|
+-----------+--------+----------+---------+
我试图将不同的obj_type存储到列表中。
之前有效:
obj_list_cur=obj.select("obj_type").distinct().rdd.map(lambda row : row[0]).collect()
但现在抛出错误:
Error from python worker:
/opt/cloudera/parcels/Anaconda/bin/python: No module named pyspark
这些命令虽然有效:
obj_list_cur=obj.select("obj_type").distinct().rdd.collect()
obj_list_cur=obj.select("obj_type").distinct().collect()
我想知道为什么rdd.map()。collect()不起作用。可能导致此类行为的原因