标签: apache-spark hive apache-spark-sql spark-streaming ziparchive
我正在尝试读取位于linux机器上的.tar文件。
tar文件包含.gz文件和文本文件。
我想写一个spark程序来选择tar文件并将.gz文件或底层文本文件加载到Hive表。
Spark API非常令人困惑。一些人正在使用binaryFiels,TextFiles和WholeTextFile API。
有人可以根据我的要求推荐一个好的示例和API。
更新:Spark版本:2.0.2