应用错误收集

时间：2015-09-28 15:43:28

标签： hadoop apache-spark apache-spark-sql spark-streaming parquet

我将大量数据存储在我的Hadoop HDFS上作为Parquet文件我正在使用Spark流以交互方式从Web服务器接收查询，并将收到的查询转换为SQL，以使用SparkSQL在我的数据上运行。

在这个过程中，我需要运行几个SQL查询，然后通过合并或减去单个查询的结果来返回一些聚合结果。

有没有什么方法可以优化和提高流程的速度，例如，对已经收到的数据帧而不是整个数据库运行查询？

是否有更好的方式以交互方式查询Parquet存储的数据并给出结果？

谢谢！

答案 0 :(得分：1)

如果您在同一个RDD上运行多个查询，则会在查询之前使用.cache（）缓存RDD，从而提高性能。

您是否确定Apache Spark是适合此工作的正确工具？从您描述的交互式查询中，Impala或Presto更合适。