标签: hadoop apache-spark apache-spark-sql spark-streaming parquet
我将大量数据存储在我的Hadoop HDFS上作为Parquet文件 我正在使用Spark流以交互方式从Web服务器接收查询,并将收到的查询转换为SQL,以使用SparkSQL在我的数据上运行。
在这个过程中,我需要运行几个SQL查询,然后通过合并或减去单个查询的结果来返回一些聚合结果。
有没有什么方法可以优化和提高流程的速度,例如,对已经收到的数据帧而不是整个数据库运行查询?
是否有更好的方式以交互方式查询Parquet存储的数据并给出结果?
谢谢!
答案 0 :(得分:1)
如果您在同一个RDD上运行多个查询,则会在查询之前使用.cache()缓存RDD,从而提高性能。
您是否确定Apache Spark是适合此工作的正确工具?从您描述的交互式查询中,Impala或Presto更合适。