使用Spark查询存储在HDFS中的数据的最佳方法是什么?

时间:2018-02-11 08:04:04

标签: java apache-spark apache-spark-sql spark-dataframe spark-thriftserver

我想创建一个使用Spark在HDFS中查询数据的Java应用程序。到目前为止,我已经通过两种方式对此进行了测试: - 对Thrift服务器公开的JDBC端点进行SQL查询(以默认配置启动) - 使用spark数据集api

我的问题是,对于hadoop / spark来说是全新的,两种方式中哪一种最有效,更容易设置(没有默认配置)?

从我理解到现在,使用Thrift服务器需要配置和维护Thrift和Hive。另一方面,我希望使用数据集API会更慢并且有更多限制,将数据保存在内存中。

1 个答案:

答案 0 :(得分:1)

thrift服务器确实需要稍微多一点的配置,并且需要一个hive Metastore来保存表定义,你可以使用sql查询所有内容。在一天结束时,运行thrift服务器查询和使用无类型数据集api的查询之间的性能基本相同,从功能上来说,您可以更灵活地使用数据集api。由于codegen吐出坏代码(特别是pre-spark 2.2),强类型数据集apis的性能低于无类型数据集api。