Spark:从XML / Parquet / Sequence文件中读取数据

时间:2015-12-03 10:03:18

标签: xml apache-spark hive hue parquet

我是Spark的新手,目前我主要使用的是Hive& cloudera HDFS群集上的Impala。

我有几十个XML文件,我用它来使用Hive创建一个外部表。

该表目前存储为Parquet文件。

现在,我想使用Spark读取这些数据.. 我可以直接从表中读取数据吗?

或者我是否必须从原始数据中读取它? 如果是这样,不同格式之间是否存在性能差异 (XML,Sequence,Parquet)?

谢谢。

更新: 我们的hive集群目前可以在Spark引擎上运行。 但是,我正在谈论在Scala中编写实际的Spark代码,并让它读取Hive表/ XML /序列文件/ Parquet文件。

0 个答案:

没有答案