下面是我写的示例spark sql,用于获取在某个代理机构注册的男性和女性的数量。我使用sql生成输出, 有没有办法使用dataframe而不是sql做类似的事情。
val districtWiseGenderCountDF = hiveContext.sql("""
| SELECT District,
| count(CASE WHEN Gender='M' THEN 1 END) as male_count,
| count(CASE WHEN Gender='F' THEN 1 END) as FEMALE_count
| FROM agency_enrollment
| GROUP BY District
| ORDER BY male_count DESC, FEMALE_count DESC
| LIMIT 10""".stripMargin)
答案 0 :(得分:0)
从Spark 1.6开始,您可以使用pivot + group by来实现您的喜欢
没有样本数据(以及我自己的spark> 1.5)这里有一个应该有效的解决方案(未经测试)
var geojsonLayer = new L.GeoJSON.AJAX("test.geojson")
请参阅How to pivot DataFrame?了解一般示例