Question

我按照说明安装了Tachyon和Spark：

http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html

然而，作为一个新手，我不知道如何把文件＆＃34; X＆＃34;进入Tachyon文件系统，他们说：

$ ./spark-shell
$ val s = sc.textFile("tachyon-ft://stanbyHost:19998/X")
$ s.count()
$ s.saveAsTextFile("tachyon-ft://activeHost:19998/Y")

我所做的是指向现有文件（我通过管理UI找到）：

scala> val s = sc.textFile("tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH")
s: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21

当我运行计数时，我得到以下错误：

scala> s.count()
java.lang.NullPointerException: connectionString cannot be null

我认为我的道路是错的。所以有两个问题：

如何将文件复制到Tachyon？
其FS的正确路径是什么？

对不起，非常非常新手!!

更新1

我不确定tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH是否是正确的路径。我无法通过浏览器或wget

这是我在文件系统浏览器中看到的

Answer 1

我发现了这个问题。我没有这样做

sc.hadoopConfiguration.set("fs.tachyon.impl", "tachyon.hadoop.TFS")

在我完成这项练习http://ampcamp.berkeley.edu/5/exercises/tachyon.html#run-spark-on-tachyon之后，我发现了正确的道路：

val file = sc.textFile("tachyon://localhost:19998/LICENSE")

所以我的设置很好。这里的文档http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html给我带来了很多困惑。

用Tachyon测试Spark

1 个答案: