Question

如何修改以下代码以仅获取表中的最后一行，特别是key列下的值？原因是，这是一个巨大的表，我需要最后一行，特别是键值，才能知道到目前为止已加载了多少。我不在乎还有什么其他内容。

第1行：

val df = spark.sqlContext.read.format("datasource").option("project", "character").option("apiKey", "xx").option("type", "tables").option("batchSize", "10000").option("database", "humans").option("table", "healthGamma").option("inferSchema", "true").option("inferSchemaLimit", "1").load()

第2行：

df.createTempView("tables")

第3行：

spark.sqlContext.sql("select * from tables").repartition(1).write.option("header","true").parquet("lifes_remaining")

Answer 1

您可以在这样的数据框中使用 orderBy ，希望对您有所帮助：

df.orderBy($"value".desc).show(1)

Scala Spark仅读取特定列下的最后一行

1 个答案: