两个人在他们的计算机上测试Apache Spark ......
我们下载了Hadoop 2.6的Spark prebuild版本,转到文件夹/spark-1.6.2-bin-hadoop2.6/
,创建了一个“tmp”目录,然后运行:
$ bin/run-example org.apache.spark.examples.streaming.HdfsWordCount tmp
我将任意文件content1
和content2dssdgdg
添加到该“tmp”目录。
-------------------------------------------
Time: 1467921704000 ms
-------------------------------------------
(content1,1)
(content2dssdgdg,1)
-------------------------------------------
Time: 1467921706000 ms
Spark在我的Ubuntu 15.10笔记本电脑上检测到具有上述终端输出的文件,但在我的同事的Windows 7 Enterprise笔记本电脑上没有检测到。
Spark的文件系统观察程序无法在Windows上运行吗?
答案 0 :(得分:1)
John,我建议对https://github.com/karthikj1/Hadoop-2.7.1-Windows-64-binaries托管的64位Windows 7使用hadoop编译的二进制文件。要使用此hadoop版本,您需要使用为用户提供的hadoop预先构建的spark版本。确保按照https://spark.apache.org/docs/latest/hadoop-provided.html中的说明设置SPARK_DIST_CLASSPATH。同时在PATH上放置%HADOOP_HOME%\ lib \ native。设置完成后,您需要按照https://wiki.apache.org/hadoop/Hadoop2OnWindows中提到的步骤3.1,3.3,3.4和3.5启动本地HDFS。在运行HdfsWordCount时,您需要将hdfs:/// tmp作为目录路径arg传递。一切顺利。