Pyspark:如何从另一行填充缺失值

时间:2017-08-03 20:43:47

标签: python-2.7 pyspark

如何在按ID分组后替换pyspark中的空值? 对于每个id,我需要将null值替换为-20周的值

ID  |week | Value
A   | -21 | null
B   | -22 | null
B   | -20 | 0.4521
A   | -22 | null
A   | -20 | 0.85678
B   | -21 | null
C   | -20 | 0.4563
B   | -19 | 0.4678

1 个答案:

答案 0 :(得分:0)

我对此的赌注是在第-20周取出值并加入原始数据帧,然后在pyspark中使用when函数。我们的日df是你的数据框

var ipLocations = [];
for (var ip of ips) {
  $.ajax({
    url: 'https://freegeoip.net/json/' + ip,
    async: false,
    success: function(data) {
      var outputString = data.ip + ' - ' + data.city + ', ' + data.country_code; 
      ipLocations.push(outputString);
    }
  });
}

df5是您所需的数据框