我想在安装前澄清一些问题。请耐心等待我,因为我还是数据科学和安装包的新手。
1)我可以在我的窗户上安装pip install pyspark。当我尝试在下面运行示例脚本时,它告诉我我的spark_home未设置。我是否需要设置我的spark_home,我该怎么做呢?我在网上推荐的博客从spark网站手动提取spark文件,然后他们必须放入spark_home和pythonpath。但是,我认为这是用pip install pyspark进行的。
import findspark
findspark.init()
import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.sql('''select 'spark' as hello ''')
df.show()
2)对于intellij,一旦我在pyspark中安装并在必要时设置为1,我还需要进行额外的配置吗?
非常感谢你。如果我问一个愚蠢的问题,我再次道歉并请原谅。
答案 0 :(得分:2)
查看此处的说明
https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c
你也需要安装Apache Spark(整个事情)!
我做到了并且需要很长时间 - 在大多数情况下,当我正在学习/帮助朋友时,我会在Zepl或databricks使用笔记本
如果你确实选择安装整个东西并且有麻烦,不要害羞地发布另一个问题:)