应用错误收集

我在R中有下面的代码，我试图将其转换为等效的pyspark代码，但是转换后，我的预期结果有所不同。谁能指导我这里出了什么问题。

R代码如下

# loop through all  values, from the lowest to the highest
for (i in 1:nrow(values)){
  # select all pairs whose weights are >= currently processed weight
  tmp <- data_int[vote >= values[i, vote]]

我将其转换为pyspark

result = []

for row in values.collect():
    tmp = data_int.filter(data_int.vote >= values.vote)

有人可以指导我如何将其转换为在pyspark中实现所需的操作

输入数据框data_int为

col1  col2  vote
12     567   0.2
23     568   0.9
14     254   0.38
21     258   0.89

值数据框为

vote
 0.3
0.9
0.80
0.36

和tmp（所需的输出是） tmp：

col1  col2  vote
23     568   0.9
14     254   0.38
21     258   0.89

pyspark for循环迭代行值

0 个答案: