在Spark中读取.tar文件并加载到Hive

时间:2017-03-17 16:59:12

标签: apache-spark hive apache-spark-sql spark-streaming ziparchive

我正在尝试读取位于linux机器上的.tar文件。

tar文件包含.gz文件和文本文件。

我想写一个spark程序来选择tar文件并将.gz文件或底层文本文件加载到Hive表。

Spark API非常令人困惑。一些人正在使用binaryFiels,TextFiles和WholeTextFile API。

有人可以根据我的要求推荐一个好的示例和API。

更新:Spark版本:2.0.2

0 个答案:

没有答案