Scala Spark仅读取特定列下的最后一行

时间:2018-12-05 09:18:04

标签: sql scala apache-spark pyspark

如何修改以下代码以仅获取表中的最后一行,特别是key列下的值?原因是,这是一个巨大的表,我需要最后一行,特别是键值,才能知道到目前为止已加载了多少。我不在乎还有什么其他内容。

第1行:

val df = spark.sqlContext.read.format("datasource").option("project", "character").option("apiKey", "xx").option("type", "tables").option("batchSize", "10000").option("database", "humans").option("table", "healthGamma").option("inferSchema", "true").option("inferSchemaLimit", "1").load()

第2行:

df.createTempView("tables")

第3行:

spark.sqlContext.sql("select * from tables").repartition(1).write.option("header","true").parquet("lifes_remaining")

1 个答案:

答案 0 :(得分:1)

您可以在这样的数据框中使用 orderBy ,希望对您有所帮助:

df.orderBy($"value".desc).show(1)