让我们假设我有一个包含7个csv文件的 tar.gz 存档。 如何处理这样的tar.gz存档,以在单独的RDD或DataFrame中获取每个csv文件。
我已经尝试过提到here的可能性,但是我将所有7个csv文件放在一个RDD中,这与执行简单的$content_streams = $db["content_stream"];
$stream = !empty($content_streams) ? json_decode( $content_streams, true ) : array();
相同。
我正在使用Spark 2。*