Spark无法为您的平台

时间:2016-10-13 08:00:57

标签: hadoop apache-spark hadoop2

我是Ubuntu 16.04的假人,拼命想让Spark工作。 我试图使用stackoverflow上找到的答案解决我的问题,但我无法解决任何问题。 使用bin文件夹中的./spark-shell命令启动spark我收到此消息

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable".

我正在使用Java版

java version "1.8.0_101
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode).

Spark是最新版本:2.0.1 with Hadoop 2. 7。 我还重新使用了较旧的Spark软件包,1.6.2和Hadoop 2.4,但我得到了相同的结果。我也尝试在Windows上安装Spark,但它似乎比在Ubuntu上执行它更难。

我还尝试从我的笔记本电脑上运行Spark上的一些命令:我可以定义一个对象,我可以创建一个RDD并将其存储在缓存中,我可以使用像.map()这样的函数,但是当我尝试运行时函数.reduceByKey()我收到几串错误消息。

可能是Hadoop库编译为32位,而我是64位?

感谢。

2 个答案:

答案 0 :(得分:24)

修复步骤:

  • download Hadoop binaries
  • 解压缩到您选择的目录
  • HADOOP_HOME设置为指向该目录。
  • $HADOOP_HOME/lib/native添加到LD_LIBRARY_PATH

答案 1 :(得分:3)

  1. 下载hadoop二进制文件(link)并将其放在您的主目录中 (如果您愿意,可以选择不同的hadoop版本并相应地更改后续步骤)
  2. 使用以下命令解压缩主目录中的文件夹。 tar -zxvf hadoop_file_name
  3. 现在将导出HADOOP_HOME =〜/ hadoop-2.8.0添加到.bashrc文件中。打开一个新终端,然后重试。
  4. 来源:Install PySpark on ubuntu