我是Hadoop世界的新手。 我将在我的PC上安装独立版本的Hadoop以在HDFS上保存文件(当然是1个节点),然后运行pySpark从HDFS读取文件并处理它们。我不知道如何将这些碎片放在一起。 任何人都可以给我一个清晰的组件,我需要安装吗?
答案 0 :(得分:0)
如果您使用的是Windows PC,则需要安装VM播放器或 那么Oracle虚拟框
1.A。安装任何Linux发行版,例如虚拟机中的centos,rhel,ubuntu等
1.B。在您的VM中安装JAVA
1.c从第2.b步开始
如果您使用的是Linux机器,那么</ p>
2a上。安装JAVA 2b下载稳定版apache hadoop
2.c然后在/ usr / your /目录中提取tar文件
2.d在你的〜/ .bash_profile中为你的hadoop路径进行配置
e.g。export HADOOP_HOME=/opt/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME
2.e按照此must have properties for core-site hdfs-site mapred-site and yarn-site.xml
在core-site.xml hdfs-site.xml mapred-site.xml和yarn-site.xml中进行配置2.f格式化您的名称节点,然后启动其余守护程序
注意:按照安装single node cluster或APACHE Documentation
的步骤进行操作
3.a下载Apache spark
3.b提取tar文件并按照bash_profile文件中导出路径的相同说明进行操作
3.c启动spark shell或pyspark shell
注意:请按照installing spark
的步骤操作答案 1 :(得分:0)
如果你有 Windows 10 Pro,那么你可以安装 Ubuntu WSL 20.04(https://docs.microsoft.com/en-us/windows/wsl/install-win10#manual-installation-steps) 然后安装 Hadoop(https://dev.to/samujjwaal/hadoop-installation-on-windows-10-using-wsl-2ck1) 在这一刻有两个部分:一个是对 hdfs 文件的管理,一个是对应用程序的管理。 因此,您可以使用对 hdfs 文件的 hadoop 管理来存储/托管任何可以复制压缩然后可以在 hadoop-drive-zone 中解压缩的海量文件。 然后可以安装 python(pySpark) 或 java 或其他语言来创建一个应用程序,该应用程序将通过 hadoop 应用程序管理进行管理。 hadoop 应用程序(比方说 pySpark)可以访问存储在 hadoop-drive-zone 中的任何海量文件。 要安装 Apache Spark 作为替代方案,您可以按照本教程进行操作: https://dev.to/awwsmm/installing-and-running-hadoop-and-spark-on-ubuntu-18-393h 要么 https://kontext.tech/column/spark/311/apache-spark-243-installation-on-windows-10-using-windows-subsystem-for-linux
备注:看上面的教程安装Hadoop 3.3.0版本(用ubuntu命令试试:$ hadoop version)在Spark安装教程一定要选择/使用足够的Spark版本!