Question

Beeline脚本是连接到Spark / bin中的HiveServer2的方式之一。

我按如下方式运行简单查询。

在输出中，我可以看到正在启动Map-Reduce。

我只是想了解Spark中beeline功能的优势，因为它遵循传统的map-reduce执行框架？

我们可以直接使用Spark RDD功能吗？

提前致谢。

Answer 1

Beeline不是Spark的一部分。

它只是一个HiveServer2客户端。

您可以启动Spark shell并在shell中执行查询，但这与Beeline无关。因为Beeline与Spark没有任何关系。

Answer 2

这是一种方法。如果您不想使用Mapreduce，您可以使用TEZ作为引擎。它将在内存中运行速度比MR更快。

SET hive.execution.engine=tez;

但是你不能运行spark ifrom beeline。这是一个连接到hiveserver2的独立应用程序。

Answer 3

添加@MondayMonkey所说的内容。直线不是Spark引擎的一部分。它只是一个连接到Spark的Thriftserver（JDBC服务器）的JDBC客户端。 Beeline提供了一个SQL界面供您与Spark SQL进行交互