使用Dataframe而不是spark sql进行数据分析

时间:2017-05-15 16:54:12

标签: apache-spark apache-spark-sql spark-dataframe

下面是我写的示例spark sql,用于获取在某个代理机构注册的男性和女性的数量。我使用sql生成输出, 有没有办法使用dataframe而不是sql做类似的事情。

val districtWiseGenderCountDF = hiveContext.sql("""
                                                   | SELECT District, 
                                                   |        count(CASE WHEN Gender='M' THEN 1 END) as male_count, 
                                                   |        count(CASE WHEN Gender='F' THEN 1 END) as FEMALE_count 
                                                   | FROM agency_enrollment 
                                                   | GROUP BY District
                                                   | ORDER BY male_count DESC, FEMALE_count DESC
                                                   | LIMIT 10""".stripMargin)

1 个答案:

答案 0 :(得分:0)

从Spark 1.6开始,您可以使用pivot + group by来实现您的喜欢

没有样本数据(以及我自己的spark> 1.5)这里有一个应该有效的解决方案(未经测试)

var geojsonLayer = new L.GeoJSON.AJAX("test.geojson")

请参阅How to pivot DataFrame?了解一般示例