我使用linux命令行lz4来压缩csv文件。
示例: -
lz4 input.csv
导致input.csv.lz4作为输出
但是当我尝试使用以下命令读取spark shell中的lz4文件时,它总是会导致结果为空。
val output = sparkSession.read.format(" com.databricks.spark.csv")。option(" delimiter"," \ t")。负载(" S3:///input.csv.lz4")
output.count res:Long = 0
我发现某处lz4命令行工具可能与spark不兼容
https://forums.databricks.com/questions/7957/how-can-i-read-in-lz4-compressed-json-files.html
有没有人让它在spark中读取lz4文件。如果是,lz4文件是如何创建的?