我在R中有下面的代码,我试图将其转换为等效的pyspark代码,但是转换后,我的预期结果有所不同。谁能指导我这里出了什么问题。
R代码如下
# loop through all values, from the lowest to the highest
for (i in 1:nrow(values)){
# select all pairs whose weights are >= currently processed weight
tmp <- data_int[vote >= values[i, vote]]
我将其转换为pyspark
result = []
for row in values.collect():
tmp = data_int.filter(data_int.vote >= values.vote)
有人可以指导我如何将其转换为在pyspark中实现所需的操作
输入数据框data_int为
col1 col2 vote
12 567 0.2
23 568 0.9
14 254 0.38
21 258 0.89
值数据框为
vote
0.3
0.9
0.80
0.36
和tmp(所需的输出是) tmp:
col1 col2 vote
23 568 0.9
14 254 0.38
21 258 0.89