pyspark for循环迭代行值

时间:2019-06-08 09:59:38

标签: pyspark

我在R中有下面的代码,我试图将其转换为等效的pyspark代码,但是转换后,我的预期结果有所不同。谁能指导我这里出了什么问题。

R代码如下

# loop through all  values, from the lowest to the highest
for (i in 1:nrow(values)){
  # select all pairs whose weights are >= currently processed weight
  tmp <- data_int[vote >= values[i, vote]]

我将其转换为pyspark

result = []

for row in values.collect():
    tmp = data_int.filter(data_int.vote >= values.vote)

有人可以指导我如何将其转换为在pyspark中实现所需的操作

输入数据框data_int为

col1  col2  vote
12     567   0.2
23     568   0.9
14     254   0.38
21     258   0.89

值数据框为

vote
 0.3
0.9
0.80
0.36

和tmp(所需的输出是) tmp:

col1  col2  vote
23     568   0.9
14     254   0.38
21     258   0.89

0 个答案:

没有答案