Question

我是Data Science的新手，我正在使用Google Colab进行一个简单的自我项目。我从something.csv文件中获取了数据，并且文件的列使用####进行了加密，所以我不知道这些列的名称。我想总结该.csv文件最后一列的所有值。

这是我尝试使用pyspark解决的问题

df = spark.read.csv('something.csv', header=True)

现在，我想对“ col”列中的值求和。我搜索了其他stackoverflow帖子，但不知道如何总结。

Answer 1

使用insert into Courses values('GET'+'CS'+'Fall'+'2016'+'C+')来获取 java.sql.SQLSyntaxErrorException: ORA-00947: not enough values 的所有值的总和。

.agg(sum(<col_name>))

last column

Answer 2

from pyspark.sql.functions import expr

expression = '+'.join(cols_list)

df = df.withColumn('col', expr(expression))