Spark只读取了巨大的tar.gz文件的一部分

时间:2018-02-14 19:46:38

标签: amazon-web-services apache-spark

我有一个很大的tar.gz文件(让他们说3GB)当你解开它时,它会介于16到25 GB之间。 untar版本具有以下结构:

backup
├── folder1
│   ├── somestuff.aof
│   └── dump.rdb
└── low

我唯一关心的是dump.rdb,但我不想读取整个tar.gz文件并将其解压缩到内存中,然后读取dump.rdb文件,因为我的内存有限。<登记/> 什么是阅读dump.rdb的最佳闪亮方式?如果那不可能解决内存问题的最佳方法是什么?

P.S:我正在使用亚马逊AWS

0 个答案:

没有答案