无法在Google Colab上安装PySpark

时间:2019-04-06 10:16:10

标签: pyspark google-colaboratory

我正在尝试使用下面给出的代码在Google Colab上安装PySpark,但出现以下错误。

tar:spark-2.3.2-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录

tar:错误无法恢复:现在退出

此代码已成功运行一次。但是在重新启动笔记本计算机后会引发此错误。我什至尝试从另一个Google帐户运行此程序,但再次出现相同的错误。

(还有什么方法不需要在笔记本重新启动后每次都安装PySpark?)

代码:

-------------------------------------------------- -------------------------------------------------- ----------------------------

!apt-get install openjdk-8-jdk-headless -qq> / dev / null

!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz

以下这一行似乎引起了问题,因为它找不到下载的文件。

!tar xvf spark-2.3.2-bin-hadoop2.7.tgz

我还尝试了中等博客上建议的以下两行(而不是上面的两行)。但是没有比这更好的了。

!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

!tar xvf spark-2.4.0-bin-hadoop2.7.tgz

!pip install -q findspark

-------------------------------------------------- -------------------------------------------------- ---------------------------

有什么主意如何摆脱这个错误并在Colab上安装PySpark?

5 个答案:

答案 0 :(得分:1)

我仅通过使用即可在colab上运行pyspark

!pip安装pyspark

它工作正常。

答案 1 :(得分:1)

日期:2020年6月9日


第1步::在Google colab上安装pyspark

!pip install pyspark

第2步:在spark会话中处理熊猫和spark Dataframe

!pip install pyarrow

它促进了许多组件之间的通信,例如,使用Python(熊猫)读取实木复合地板文件并转换为Spark数据帧,Falcon Data Visualization或Cassandra,而无需担心转换。

第3步:创建Spark会话

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').getOrCreate()

完成⭐

答案 2 :(得分:1)

我曾尝试以相同的方式安装,但即使在检查了正确版本的 spark 后,我还是遇到了同样的错误。 运行下面的代码对我有用!!

!pip install pyspark
!pip install pyarrow
!pip install -q findspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('HelloWorld').getOrCreate()

答案 3 :(得分:0)

您收到此错误,是因为 spark-2.3.2-bin-hadoop2.7 被官方网站和镜像网站上的最新版本所取代。

转到任何此路径并获取最新版本

  1. http://apache.osuosl.org/spark/
  2. https://www-us.apache.org/dist/spark/

替换spark build版本,您就完成了。 每件事都会顺利进行。

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark

答案 4 :(得分:0)

我使用以下设置在 google colab 上运行 pyspark 和 sparkdl。

# Installing spark 
!apt-get install openjdk-8-jre
!apt-get install scala
!pip install py4j
!wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
!tar xf spark-2.4.8-bin-hadoop2.7.tgz
!pip install -q findspark

# Installing databricks packages
!wget -q https://github.com/databricks/spark-deep-learning/archive/refs/tags/v1.5.0.zip 
!unzip v1.5.0.zip
!mv spark-deep-learning-1.5.0 databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11

# Clearing unnecessary space
!rm -r *.tgz *.zip sample_data
!ls

# Setting up environment variables
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.8-bin-hadoop2.7"

SUBMIT_ARGS = "--packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS

# Importing and initating spark
import findspark
findspark.init()
from pyspark.sql import SparkSession
# spark = SparkSession.builder.master("local[*]").getOrCreate()
spark = SparkSession.builder.appName("Test Setup").getOrCreate()
sc = spark.sparkContext