使用LZ4压缩文本文件(CSV数据)并在Spark

时间:2017-03-07 02:00:59

标签: csv hadoop apache-spark apache-spark-sql lz4

我使用linux命令行lz4来压缩csv文件。

示例: -

lz4 input.csv

导致input.csv.lz4作为输出

但是当我尝试使用以下命令读取spark shell中的lz4文件时,它总是会导致结果为空。

val output = sparkSession.read.format(" com.databricks.spark.csv")。option(" delimiter"," \ t")。负载(" S3:///input.csv.lz4")

output.count res:Long = 0

我发现某处lz4命令行工具可能与spark不兼容

https://forums.databricks.com/questions/7957/how-can-i-read-in-lz4-compressed-json-files.html

有没有人让它在spark中读取lz4文件。如果是,lz4文件是如何创建的?

0 个答案:

没有答案