如何修改以下代码以仅获取表中的最后一行,特别是key
列下的值?原因是,这是一个巨大的表,我需要最后一行,特别是键值,才能知道到目前为止已加载了多少。我不在乎还有什么其他内容。
第1行:
val df = spark.sqlContext.read.format("datasource").option("project", "character").option("apiKey", "xx").option("type", "tables").option("batchSize", "10000").option("database", "humans").option("table", "healthGamma").option("inferSchema", "true").option("inferSchemaLimit", "1").load()
第2行:
df.createTempView("tables")
第3行:
spark.sqlContext.sql("select * from tables").repartition(1).write.option("header","true").parquet("lifes_remaining")
答案 0 :(得分:1)
您可以在这样的数据框中使用 orderBy ,希望对您有所帮助:
df.orderBy($"value".desc).show(1)