应用错误收集

时间：2017-01-11 12:28:20

标签： python hadoop hdfs pyspark

我是Hadoop世界的新手。我将在我的PC上安装独立版本的Hadoop以在HDFS上保存文件（当然是1个节点），然后运行pySpark从HDFS读取文件并处理它们。我不知道如何将这些碎片放在一起。任何人都可以给我一个清晰的组件，我需要安装吗？

答案 0 :(得分：0)

3.a下载Apache spark

3.b提取tar文件并按照bash_profile文件中导出路径的相同说明进行操作

3.c启动spark shell或pyspark shell

注意：请按照installing spark

答案 1 :(得分：0)

如果你有 Windows 10 Pro，那么你可以安装 Ubuntu WSL 20.04(https://docs.microsoft.com/en-us/windows/wsl/install-win10#manual-installation-steps) 然后安装 Hadoop(https://dev.to/samujjwaal/hadoop-installation-on-windows-10-using-wsl-2ck1) 在这一刻有两个部分：一个是对 hdfs 文件的管理，一个是对应用程序的管理。因此，您可以使用对 hdfs 文件的 hadoop 管理来存储/托管任何可以复制压缩然后可以在 hadoop-drive-zone 中解压缩的海量文件。然后可以安装 python(pySpark) 或 java 或其他语言来创建一个应用程序，该应用程序将通过 hadoop 应用程序管理进行管理。 hadoop 应用程序（比方说 pySpark）可以访问存储在 hadoop-drive-zone 中的任何海量文件。要安装 Apache Spark 作为替代方案，您可以按照本教程进行操作： https://dev.to/awwsmm/installing-and-running-hadoop-and-spark-on-ubuntu-18-393h 要么 https://kontext.tech/column/spark/311/apache-spark-243-installation-on-windows-10-using-windows-subsystem-for-linux

备注：看上面的教程安装Hadoop 3.3.0版本（用ubuntu命令试试：$ hadoop version）在Spark安装教程一定要选择/使用足够的Spark版本！