我应该使用Spark从S3读取数千个* .CSV文件。这些文件在其属性中具有<tr>
个</tr> <tr>
作为元数据。通常我会这样做:
Content-Encoding
但是在这种情况下,由于文件被压缩,因此不起作用。如果我可以更改文件的扩展名,那么它将起作用(但我对此无能为力):
gzip
我知道this method将文件扩展名注册为压缩文件,但是将.csv添加为压缩扩展名对于普通CSV文件来说是有问题的。 有没有办法强制Spark在不添加.csv作为压缩格式的情况下解压缩CSV文件?