Spark文件系统观察程序无法在Windows上运行

时间:2016-07-07 20:09:24

标签: windows ubuntu apache-spark filesystemwatcher

两个人在他们的计算机上测试Apache Spark ......

Spark Download

我们下载了Hadoop 2.6的Spark prebuild版本,转到文件夹/spark-1.6.2-bin-hadoop2.6/,创建了一个“tmp”目录,然后运行:

$ bin/run-example org.apache.spark.examples.streaming.HdfsWordCount tmp

我将任意文件content1content2dssdgdg添加到该“tmp”目录。

-------------------------------------------
Time: 1467921704000 ms
-------------------------------------------
(content1,1)
(content2dssdgdg,1)

-------------------------------------------
Time: 1467921706000 ms

Spark在我的Ubuntu 15.10笔记本电脑上检测到具有上述终端输出的文件,但在我的同事的Windows 7 Enterprise笔记本电脑上没有检测到。

Spark的文件系统观察程序无法在Windows上运行吗?

1 个答案:

答案 0 :(得分:1)

John,我建议对https://github.com/karthikj1/Hadoop-2.7.1-Windows-64-binaries托管的64位Windows 7使用hadoop编译的二进制文件。要使用此hadoop版本,您需要使用为用户提供的hadoop预先构建的spark版本。确保按照https://spark.apache.org/docs/latest/hadoop-provided.html中的说明设置SPARK_DIST_CLASSPATH。同时在PATH上放置%HADOOP_HOME%\ lib \ native。设置完成后,您需要按照https://wiki.apache.org/hadoop/Hadoop2OnWindows中提到的步骤3.1,3.3,3.4和3.5启动本地HDFS。在运行HdfsWordCount时,您需要将hdfs:/// tmp作为目录路径arg传递。一切顺利。