使用for循环返回pyspark dataframe的问题

时间:2019-06-10 12:15:44

标签: for-loop pyspark

我正在pyspark中申请循环。我如何在dataframe中获取实际值。我也在做数据帧联接和过滤。

我还没有在这里添加数据集,我需要方法或伪代码来弄清楚我在这里做什么。

非常感谢您的帮助,很久以来我一直陷入困境。

values1 = values.collect() 
temp1 = []
for index, row in enumerate(sorted(values1, key=lambda x:x.w_vote, reverse = False)):
    tmp = data_int.filter(data_int.w_vote >= row.w_vote)
    # Left join service types to results
    it1 = dt.join(master_info,dt.value == master_info.value, 'left').drop(dt.value)
    print(tmp)
    it1 = it1.withcolumn('iteration',F.lit('index')).otherwise(it1.iteration1)
    it1 = it1.collect()[index]
    # concatenate the results to the final hh list
    temp1.append(it1)
    print ('iterations left:', total_values - (index+1), "Threshold:", row.w_vote)

我面临的问题是temp1的输出如下

DataFrame[value_x: bigint, value_y: bigint, type_x: string, type_y: string, w_vote: double]
iterations left: 240 Threshold: 0.1
DataFrame[value_x: bigint, value_y: bigint, type_x: string, type_y: string, w_vote: double]
iterations left: 239 Threshold: 0.2

为什么我的实际值没有在uutput中显示为列表

1 个答案:

答案 0 :(得分:1)

应用于数据框的

<!DOCTYPE html> <html> <head></head> <body> <script type="text/javascript"> var btn = document.createElement("input"); btn.setAttribute('type','button'); btn.setAttribute('value','&#9660;'); document.body.appendChild(btn); </script> </body> </html> 执行数据框的print方法,这是您所获得的。如果要打印数据框的内容,请使用__repr__显示前20行,或使用show获取完整的数据框。