从S3读取压缩的CSV文件

时间:2018-07-30 22:29:13

标签: scala apache-spark amazon-s3

我应该使用Spark从S3读取数千个* .CSV文件。这些文件在其属性中具有<tr></tr> <tr>作为元数据。通常我会这样做:

Content-Encoding

但是在这种情况下,由于文件被压缩,因此不起作用。如果我可以更改文件的扩展名,那么它将起作用(但我对此无能为力):

gzip

我知道this method将文件扩展名注册为压缩文件,但是将.csv添加为压缩扩展名对于普通CSV文件来说是有问题的。 有没有办法强制Spark在不添加.csv作为压缩格式的情况下解压缩CSV文件?

0 个答案:

没有答案