我是Spark的初学者。 我安装了java和spark-1.6.1-bin-hadoop2.6.tgz(我还没有安装Hadoop)并且没有更改conf目录中的任何配置运行spark-shell。 在安装了spark的导演中,我看到另一个在其中创建了tmp文件夹的metastore_db。 为什么会创建这个metastore_db,这在哪里配置? 另外我看到在运行spark-shell之后创建了sqlContext,这个sqlContext代表了什么?
答案 0 :(得分:0)
运行spark-shell时,会创建SparkContext和SQLContext。 SQLContext是SparkContext的扩展,用于支持Spark SQL。它有执行sql查询(方法sql)和创建DataFrames的方法。
db_metastore是一个Hive Metastore路径。 Spark通过HiveContext支持Apache Hive查询。如果没有配置hive-site.xml,Spark将使用db_metastore路径,有关详细信息,请参阅documentation。
但是,如果你下载Spark 2.0会很好。你有Spark的统一入口点,名为SparkSession。该类允许您从许多来源读取数据,创建数据集等。