我是Spark的新手,目前我主要使用的是Hive& cloudera HDFS群集上的Impala。
我有几十个XML文件,我用它来使用Hive创建一个外部表。
该表目前存储为Parquet文件。
现在,我想使用Spark读取这些数据.. 我可以直接从表中读取数据吗?
或者我是否必须从原始数据中读取它? 如果是这样,不同格式之间是否存在性能差异 (XML,Sequence,Parquet)?
谢谢。
更新: 我们的hive集群目前可以在Spark引擎上运行。 但是,我正在谈论在Scala中编写实际的Spark代码,并让它读取Hive表/ XML /序列文件/ Parquet文件。