无法通过Spark + Scala连接到远程Cassandra

时间:2017-07-18 13:06:42

标签: scala maven apache-spark cassandra spark-cassandra-connector

我在尝试使用 Apache-Spark Scala 连接到远程 Cassandra 时遇到了一些麻烦。我成功地以过去的方式与 MongoDb 建立联系。

这一次,我真的不明白为什么我会收到以下错误:

  

无法在{127.0.0.1}:9042

打开与Cassandra的本机连接

我猜这是一个依赖和版本问题,但我无法在文档和其他问题上找到与此问题相关的任何内容。

我基本上设法使用jsch通过ssh-tunnel连接到我的服务器,一切正常。然后,我成功地使用 SparkConnectionFactory.scala 连接到本地apache-spark:

package connection

import org.apache.spark.{SparkConf, SparkContext}

class SparkConnectionFactory {

  var sparkContext : SparkContext = _

  def initSparkConnection = {
    val configuration = new SparkConf(true).setMaster("local[8]")
                        .setAppName("my_test")
                        .set("spark.cassandra.connection.host", "localhost")
                        .set("spark.cassandra.input.consistency.level","ONE")
                        .set("spark.driver.allowMultipleContexts", "true")
    val sc = new SparkContext(configuration)
    sparkContext = sc
  }

  def getSparkInstance : SparkContext = {
    sparkContext
  }

}

在我的 Main.scala 中调用它:

val sparkConnectionFactory = new SparkConnectionFactory
sparkConnectionFactory.initSparkConnection
val sc : SparkContext = sparkConnectionFactory.getSparkInstance

但是,当我尝试使用:

选择Cassandra表中的所有项目时
val rdd = sc.cassandraTable("my_keyspace", "my_table")
rdd.foreach(println) 

我收到了上面写的错误。

在我的服务器上,我安装了Scala ~v2.11.6Spark ~v2.1.1SparkSQL ~v2.1.1。当然我有8个核心,复制因子为1.在我的pom.xml我有:

. . .
<properties>
    <scala.version>2.11.6</scala.version>
</properties>

<dependencies>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>${scala.version}</version>
    </dependency>

    . . .

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/com.datastax.spark/spark-cassandra-connector_2.10 -->
    <dependency>
        <groupId>com.datastax.spark</groupId>
        <artifactId>spark-cassandra-connector_2.11</artifactId>
        <version>2.0.3</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql_2.10 -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.11</artifactId>
        <version>2.1.1</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/commons-codec/commons-codec -->
    <dependency>
        <groupId>commons-codec</groupId>
        <artifactId>commons-codec</artifactId>
        <version>1.9</version>
    </dependency>

</dependencies>    

我的问题是由版本冲突引起的吗?如果是,我该如何解决这个问题?如果没有,是否有任何暗示导致它的原因?

提前致谢。

1 个答案:

答案 0 :(得分:1)

  

我将端口9042转发到8988

那就是你需要连接的端口

.set("spark.cassandra.connection.port", 8988)