我们可以通过DataStax Enterprise从节点上的spark-shell访问。
在build.sbt
中声明了以下依赖项:
libraryDependencies += "org.apache.spark" %% "spark-core" % ...
当我执行该行时:
sc.textFile("cfs://...")
我正面临例外:
java.io.IOException: No FileSystem for scheme: cfs
如果我们将Spark与SPARK_MASTER(DSE中的节点)一起使用,我们也会得到“No FileSystem for scheme:cfs”异常。
问:如何使用spark访问CFS?
答案 0 :(得分:1)
注意我对如何使用DSE / Cassandra和Spark的理解几乎没有。
更新:在Accessing Cassandra from Spark中,有一些示例说明如何使用DSE从Spark访问Cassandra数据。似乎有sc.cassandraTable
方法来访问Cassandra表。这可能是解决方案。查看其他链接以了解API。
我认为您应该使用网站上显示的spark-cassandra-connector:
如果您编写需要访问Cassandra的Spark应用程序,那么此库适合您
答案 1 :(得分:0)
DataStax Enterprise Spark已预先配置为使用CFS。
所以下面应该工作:
sh> dse spark
scala> sc.textFile("cfs:/tmp/test.txt")
配置外部火花是一个很长的故事,至少需要为适当的hadoop版本重建火花