我正在尝试根据某个列计算数据集上的row_number,但我得到以下错误
AttributeError: 'module' object has no attribute 'rowNumber'
我使用以下脚本来获取基于MID和ClaimID的行号。我想为什么会这样?
from pyspark.sql.functions import first
from pyspark.sql.types import *
from pyspark.sql import *
from pyspark.sql import Row, functions as F
from pyspark.sql.window import Window
import pyspark.sql.functions as func
def Codes(pharmacyCodes):
df_data=pharmacyCodes
(df_data
.select("MID","claimid",
F.rowNumber()
.over(Window
.partitionBy("MID")
.orderBy("MID")
)
.alias("rowNum")
)
.show()
)
答案 0 :(得分:2)
我认为您正在寻找row_number
而不是rowNumber
。骆驼案和蛇案与Pyspark的混合可能会让人感到困惑。