Question

我正在学习PySpark，我遇到了转换＆＃34;字符串＆＃34;的问题。数字化。我四处搜索，但无法找到解决方案。请帮忙。

我能够执行以下两个命令：

人= sqlContext.read.json（＆＃34; C：\ wdchentxt \ People2.json＆＃34） people.select（＆＃39;名称＆＃39;，people.age + 1）.show（）

但我得到以下错误，因为＆＃39;年龄＆＃39;是＆＃34;不是数字列＆＃34;。如何将年龄列从字符串汇总到数字？

people.groupBy（＆＃39;两性＆＃39）。总和（＆＃39;年龄＆＃39）。显示（）

我特别困惑因为people.age + 1成功了。谢谢！

Answer 1

你有JSON文件的例子吗？

此文档可能会有所帮助，因为它类似于您的代码： https://spark.apache.org/docs/1.6.0/sql-programming-guide.html

Answer 2

你可以在pyspark dataframe中使用cast函数

df.select('gender',df.age.cast('int').alias('age')).groupBy('gender').sum('age').show()

希望它可以帮到你。