Question

包含点（例如＆＃34; id.orig_h＆＃34;）的pyspark数据框将不允许groupby，除非首先由withColumnRenamed重命名。有解决方法吗？ "`a.b`"似乎无法解决问题。

Answer 1

在我的pyspark shell中，以下代码片段正在运行：

from pyspark.sql.functions import *
myCol = col("`id.orig_h`")    
result = df.groupBy(myCol).agg(...)

和

myCol = df["`id.orig_h`"]   
result = df.groupBy(myCol).agg(...)

我希望它有所帮助。