如何在Hadoop上运行pySpark

时间:2017-01-11 12:28:20

标签: python hadoop hdfs pyspark

我是Hadoop世界的新手。 我将在我的PC上安装独立版本的Hadoop以在HDFS上保存文件(当然是1个节点),然后运行pySpark从HDFS读取文件并处理它们。我不知道如何将这些碎片放在一起。 任何人都可以给我一个清晰的组件,我需要安装吗?

2 个答案:

答案 0 :(得分:0)

  1. 如果您使用的是Windows PC,则需要安装VM播放器或 那么Oracle虚拟框

    1.A。安装任何Linux发行版,例如虚拟机中的centos,rhel,ubuntu等

    1.B。在您的VM中安装JAVA

    1.c从第2.b步开始

  2. 如果您使用的是Linux机器,那么<​​/ p>

    2a上。安装JAVA 2b下载稳定版apache hadoop

    2.c然后在/ usr / your /目录中提取tar文件

    2.d在你的〜/ .bash_profile中为你的hadoop路径进行配置 e.g。export HADOOP_HOME=/opt/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME

    2.e按照此must have properties for core-site hdfs-site mapred-site and yarn-site.xml

    在core-site.xml hdfs-site.xml mapred-site.xml和yarn-site.xml中进行配置

    2.f格式化您的名称节点,然后启动其余守护程序

  3. 注意:按照安装single node clusterAPACHE Documentation

    的步骤进行操作
      在您的PC中安装和配置hadoop后
    1. 3.a下载Apache spark

      3.b提取tar文件并按照bash_profile文件中导出路径的相同说明进行操作

      3.c启动spark shell或pyspark shell

    2. 注意:请按照installing spark

      的步骤操作

答案 1 :(得分:0)

如果你有 Windows 10 Pro,那么你可以安装 Ubuntu WSL 20.04(https://docs.microsoft.com/en-us/windows/wsl/install-win10#manual-installation-steps) 然后安装 Hadoop(https://dev.to/samujjwaal/hadoop-installation-on-windows-10-using-wsl-2ck1) 在这一刻有两个部分:一个是对 hdfs 文件的管理,一个是对应用程序的管理。 因此,您可以使用对 hdfs 文件的 hadoop 管理来存储/托管任何可以复制压缩然后可以在 hadoop-drive-zone 中解压缩的海量文件。 然后可以安装 python(pySpark) 或 java 或其他语言来创建一个应用程序,该应用程序将通过 hadoop 应用程序管理进行管理。 hadoop 应用程序(比方说 pySpark)可以访问存储在 hadoop-drive-zone 中的任何海量文件。 要安装 Apache Spark 作为替代方案,您可以按照本教程进行操作: https://dev.to/awwsmm/installing-and-running-hadoop-and-spark-on-ubuntu-18-393h 要么 https://kontext.tech/column/spark/311/apache-spark-243-installation-on-windows-10-using-windows-subsystem-for-linux

备注:看上面的教程安装Hadoop 3.3.0版本(用ubuntu命令试试:$ hadoop version)在Spark安装教程一定要选择/使用足够的Spark版本!