Spark:添加两列并使用从其他列计算的数据填充它们

时间:2016-12-04 19:21:51

标签: python python-3.x pyspark

使用pyspark 2.0.1

我有这个数据框

+-----------+----------+
| Longitude | Latitude |
+-----------+----------+
|  1        |  3       |
|  2        |  1       |
|  2        |  3       |
+-----------+----------+

我想有效地添加两个名为City,Province的列,每行使用列的值(经度和纬度)作为我已经编写的返回城市和省的python函数的输入。 所以输出应该是这样的

    +-----------+----------+--------+--------
    | Longitude | Latitude | City  | Province
    +-----------+----------+--------+--------
    |  1        |  3       | London| London
    |  2        |  1       | Paris | Paris
    |  2        |  3       | Dubai | Dubai
    +-----------+----------+--------+--------

0 个答案:

没有答案