如何汇总pyspark中未知数据帧中最后一列的所有值

时间:2020-05-01 15:07:25

标签: python apache-spark pyspark apache-spark-sql

我是Data Science的新手,我正在使用Google Colab进行一个简单的自我项目。我从something.csv文件中获取了数据,并且文件的列使用####进行了加密,所以我不知道这些列的名称。我想总结该.csv文件最后一列的所有值。

这是我尝试使用pyspark解决的问题

df = spark.read.csv('something.csv', header=True)

现在,我想对“ col”列中的值求和。我搜索了其他stackoverflow帖子,但不知道如何总结。

2 个答案:

答案 0 :(得分:1)

使用insert into Courses values('GET'+'CS'+'Fall'+'2016'+'C+') 来获取 java.sql.SQLSyntaxErrorException: ORA-00947: not enough values 的所有值的总和。

.agg(sum(<col_name>))

last column

答案 1 :(得分:1)

from pyspark.sql.functions import expr

expression = '+'.join(cols_list)

df = df.withColumn('col', expr(expression))