我是Data Science的新手,我正在使用Google Colab进行一个简单的自我项目。我从something.csv
文件中获取了数据,并且文件的列使用####
进行了加密,所以我不知道这些列的名称。我想总结该.csv文件最后一列的所有值。
这是我尝试使用pyspark解决的问题
df = spark.read.csv('something.csv', header=True)
现在,我想对“ col”列中的值求和。我搜索了其他stackoverflow帖子,但不知道如何总结。
答案 0 :(得分:1)
使用insert into Courses values('GET'+'CS'+'Fall'+'2016'+'C+')
来获取 java.sql.SQLSyntaxErrorException: ORA-00947: not enough values
的所有值的总和。
.agg(sum(<col_name>))
last column
答案 1 :(得分:1)
from pyspark.sql.functions import expr
expression = '+'.join(cols_list)
df = df.withColumn('col', expr(expression))