Pyspark窗口功能

时间:2018-05-26 23:23:00

标签: pyspark

我正在尝试根据某个列计算数据集上的row_number,但我得到以下错误

AttributeError: 'module' object has no attribute 'rowNumber'

我使用以下脚本来获取基于MID和ClaimID的行号。我想为什么会这样?

from pyspark.sql.functions import first
from pyspark.sql.types import *
from pyspark.sql import *
from pyspark.sql import Row, functions as F
from pyspark.sql.window import Window
import pyspark.sql.functions as func

def Codes(pharmacyCodes):

   df_data=pharmacyCodes

   
   (df_data
    .select("MID","claimid",
    F.rowNumber()
    .over(Window
               .partitionBy("MID")
               .orderBy("MID")
              )
         .alias("rowNum")

    )
    .show()
    )

1 个答案:

答案 0 :(得分:2)

我认为您正在寻找row_number而不是rowNumber。骆驼案和蛇案与Pyspark的混合可能会让人感到困惑。