如何使用Java获取Parquet文件大小和行数?

时间:2017-05-12 06:53:54

标签: java apache-spark-sql

我使用Spark创建了镶木地板文件。

我需要镶木地板元数据,例如文件大小和行数。有没有使用Spark库或Java获取此信息的解决方案?

1 个答案:

答案 0 :(得分:0)

您可以在scala中使用Java File API来获取

的大小
val file = new File("some.parquet")
val fileSize = file.length

这将返回您可以根据需要转换的字节大小。

如果你想要计算你需要加载的记录来点火并获得计数。 如果你想得到行数,那么

val lineCount = io.Source.fromFile("some.parquet").getLines.size