包含点(例如" id.orig_h")的pyspark数据框将不允许groupby
,除非首先由withColumnRenamed
重命名。有解决方法吗? "`a.b`"
似乎无法解决问题。
答案 0 :(得分:9)
在我的pyspark shell中,以下代码片段正在运行:
from pyspark.sql.functions import *
myCol = col("`id.orig_h`")
result = df.groupBy(myCol).agg(...)
和
myCol = df["`id.orig_h`"]
result = df.groupBy(myCol).agg(...)
我希望它有所帮助。