我在三个虚拟机上使用Spark 1.6.0,1x主服务器(独立),2x工作服,8G内存,每个2CPU。
我正在使用以下内核配置:
{
"display_name": "PySpark ",
"language": "python3",
"argv": [
"/usr/bin/python3",
"-m",
"IPython.kernel",
"-f",
"{connection_file}"
],
"env": {
"SPARK_HOME": "<mypath>/spark-1.6.0",
"PYTHONSTARTUP": "<mypath>/spark-1.6.0/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master spark://<mymaster>:7077 --conf spark.executor.memory=2G pyspark-shell --driver-class-path /opt/vertica/java/lib/vertica-jdbc.jar"
}
}
目前,这有效。我可以使用spark context sc
&amp; sqlContext
没有导入,就像在pyspark shell中一样。
当我使用多个笔记本时出现问题: 在我的火花大师身上,我看到两个&#39; pyspark-shell&#39;应用程序,这有点意义,但一次只能运行一个。但在这里,&#39;跑步&#39;并不意味着执行任何操作,即使我没有在笔记本上运行任何东西,也会显示为“正在运行”。鉴于此,我无法在笔记本之间共享资源,这非常难过(我现在必须杀死第一个shell(=笔记本内核)来运行第二个)。
如果您对如何操作有任何想法,请告诉我! 另外,我不确定我使用内核的方式是否是最佳实践&#39;,我已经遇到了设置spark&amp; amp; jupyter一起工作。
全部
答案 0 :(得分:1)
问题是Spark用来存储Metastore(Derby)的数据库。 Derby是一个轻量级数据库系统,一次只能运行一个Spark实例。 解决方案是设置另一个数据库系统来处理多个实例(postgres,mysql ......)。
例如,您可以使用postgres DB。
linux shell上的示例:
# download postgres jar
wget https://jdbc.postgresql.org/download/postgresql-42.1.4.jar
# install postgres on your machine
pip install postgres
# add user, pass and db to postgres
psql -d postgres -c "create user hive"
psql -d postgres -c "alter user hive with password 'pass'"
psql -d postgres -c "create database hive_metastore"
psql -d postgres -c "grant all privileges on database hive_metastore to hive"
hive-site.xml:
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:postgresql://localhost:5432/hive_metastore</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>org.postgresql.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>pass</value>
</property>
</configuration>