Question

下面是我写的示例spark sql，用于获取在某个代理机构注册的男性和女性的数量。我使用sql生成输出，有没有办法使用dataframe而不是sql做类似的事情。

val districtWiseGenderCountDF = hiveContext.sql("""
                                                   | SELECT District, 
                                                   |        count(CASE WHEN Gender='M' THEN 1 END) as male_count, 
                                                   |        count(CASE WHEN Gender='F' THEN 1 END) as FEMALE_count 
                                                   | FROM agency_enrollment 
                                                   | GROUP BY District
                                                   | ORDER BY male_count DESC, FEMALE_count DESC
                                                   | LIMIT 10""".stripMargin)

Answer 1

从Spark 1.6开始，您可以使用pivot + group by来实现您的喜欢

没有样本数据（以及我自己的spark＆gt; 1.5）这里有一个应该有效的解决方案（未经测试）

var geojsonLayer = new L.GeoJSON.AJAX("test.geojson")

请参阅How to pivot DataFrame?了解一般示例

使用Dataframe而不是spark sql进行数据分析

1 个答案: