如何从Spark(DataStax Enterprise)连接到CFS?

时间:2014-09-16 13:59:25

标签: cassandra apache-spark datastax-enterprise

我们可以通过DataStax Enterprise从节点上的spark-shell访问。

build.sbt中声明了以下依赖项:

libraryDependencies += "org.apache.spark" %% "spark-core" % ...

当我执行该行时:

sc.textFile("cfs://...")

我正面临例外:

java.io.IOException: No FileSystem for scheme: cfs

如果我们将Spark与SPARK_MASTER(DSE中的节点)一起使用,我们也会得到“No FileSystem for scheme:cfs”异常。

问:如何使用spark访问CFS?

  • 我们应该更改libraryDependencies吗?可能是,还有DSE-spark的另一个版本?
  • 设置?

2 个答案:

答案 0 :(得分:1)

注意我对如何使用DSE / Cassandra和Spark的理解几乎没有。

更新:在Accessing Cassandra from Spark中,有一些示例说明如何使用DSE从Spark访问Cassandra数据。似乎有sc.cassandraTable方法来访问Cassandra表。这可能是解决方案。查看其他链接以了解API。

我认为您应该使用网站上显示的spark-cassandra-connector

  

如果您编写需要访问Cassandra的Spark应用程序,那么此库适合您

答案 1 :(得分:0)

DataStax Enterprise Spark已预先配置为使用CFS。 所以下面应该工作: sh> dse spark scala> sc.textFile("cfs:/tmp/test.txt") 配置外部火花是一个很长的故事,至少需要为适当的hadoop版本重建火花