在Windows

时间:2018-04-04 00:57:28

标签: python apache-spark pyspark

我想在安装前澄清一些问题。请耐心等待我,因为我还是数据科学和安装包的新手。

1)我可以在我的窗户上安装pip install pyspark。当我尝试在下面运行示例脚本时,它告诉我我的spark_home未设置。我是否需要设置我的spark_home,我该怎么做呢?我在网上推荐的博客从spark网站手动提取spark文件,然后他们必须放入spark_home和pythonpath。但是,我认为这是用pip install pyspark进行的。

import findspark
findspark.init()

import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

df = spark.sql('''select 'spark' as hello ''')
df.show()

2)对于intellij,一旦我在pyspark中安装并在必要时设置为1,我还需要进行额外的配置吗?

非常感谢你。如果我问一个愚蠢的问题,我再次道歉并请原谅。

1 个答案:

答案 0 :(得分:2)

查看此处的说明

https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c

你也需要安装Apache Spark(整个事情)!

我做到了并且需要很长时间 - 在大多数情况下,当我正在学习/帮助朋友时,我会在Zepldatabricks使用笔记本

如果你确实选择安装整个东西并且有麻烦,不要害羞地发布另一个问题:)