使用PySpark读取并处理* .tar.gz文件

时间:2018-09-19 11:36:58

标签: apache-spark hadoop pyspark gzip tar

让我们假设我有一个包含7个csv文件的 tar.gz 存档。 如何处理这样的tar.gz存档,以在单独的RDD或DataFrame中获取每个csv文件。

我已经尝试过提到here的可能性,但是我将所有7个csv文件放在一个RDD中,这与执行简单的$content_streams = $db["content_stream"]; $stream = !empty($content_streams) ? json_decode( $content_streams, true ) : array(); 相同。

我正在使用Spark 2。*

0 个答案:

没有答案