应用错误收集

我是Spark的新手，目前我主要使用的是Hive＆amp; cloudera HDFS群集上的Impala。

我有几十个XML文件，我用它来使用Hive创建一个外部表。

该表目前存储为Parquet文件。

现在，我想使用Spark读取这些数据.. 我可以直接从表中读取数据吗？

或者我是否必须从原始数据中读取它？如果是这样，不同格式之间是否存在性能差异（XML，Sequence，Parquet）？

谢谢。

更新：我们的hive集群目前可以在Spark引擎上运行。但是，我正在谈论在Scala中编写实际的Spark代码，并让它读取Hive表/ XML /序列文件/ Parquet文件。