如何将id列添加到pyspark中的变量行数据框中

时间:2016-05-25 08:26:44

标签: python apache-spark pyspark apache-spark-sql

我正在搜索向我的数据框(dfProc)添加列'id'的方式,其中顺序编号从1(或零)到行数(在此示例中,它有10行,但我的df具有可变行)

我的dfProc的内容:

 +-----+-------+------------+
 |op_id|op_name|op_procedure|
 +-----+-------+------------+
 |   90|     39|           4|
 |   91|     39|           5|
 |   98|     39|           8|
 |  111|     39|          11|
 |  113|     39|          13|
 |  104|     39|          14|
 |   94|     39|          15|
 |   96|     39|          17|
 |   97|     39|          18| 
 |   93|     39|          21|
 +-----+-------+------------+

我想要的最终结果是:

 +-----+-------+------------+---+
 |op_id|op_name|op_procedure|id |
 +-----+-------+------------+---+
 |   90|     39|           4|  1|
 |   91|     39|           5|  2|
 |   98|     39|           8|  3|
 |  111|     39|          11|  4|
 |  113|     39|          13|  5|
 |  104|     39|          14|  6|
 |   94|     39|          15|  7|
 |   96|     39|          17|  8|
 |   97|     39|          18|  9|
 |   93|     39|          21| 10|
 +-----+-------+------------+---+

注意:我正在使用pyspark 1.5.2。我无法更新到另一个版本。

0 个答案:

没有答案