Spark Cassandra Connector的行为与CQL shell不同 - 插入问题

时间:2017-01-20 09:03:34

标签: apache-spark cassandra apache-spark-sql cql spark-cassandra-connector

我有以下Cassandra DM:

  CREATE TABLE table (
    id uuid,
    timestamp timestamp STATIC,
    value1 text STATIC,
    value2 int,
    value3 text,
    data map <text,text>,
    PRIMARY KEY ( id, value2 )
);

到目前为止一切顺利。现在我必须首先插入要格式化的格式:

INSERT INTO table (id, timestamp, value1)
VALUES (<uuid>,<timestamp>,<some-string>);

INSERT INTO table (id, value2, value3, data)
VALUES (<some-id>,<some-int>,<some-string>, <some-simple-json-map>)

两个CQL语句都可以正常工作。 现在我正在开发我的spark流媒体应用程序获取数据并将其格式化为类似于我的CQL语句的数据帧。我得到每套声明1几套声明2.

现在我遇到问题,当我保存我的数据帧时,就像第一个CQL语句一样,spark引发了cassandra异常:

    java.lang.IllegalArgumentException: 

        Some primary key columns are missing in RDD or have not been selected: value2
            at com.datastax.spark.connector.writer.TableWriter$.checkMissingPrimaryKeyColumns(TableWriter.scala:190)
            at com.datastax.spark.connector.writer.TableWriter$.checkColumns(TableWriter.scala:257)
            at com.datastax.spark.connector.writer.TableWriter$.apply(TableWriter.scala:275)
            at com.datastax.spark.connector.RDDFunctions.saveToCassandra(RDDFunctions.scala:36)
           ...

这是我的数据帧的架构:

 root
  |-- id: string (nullable = true)
  |-- timestamp: long (nullable = true)
  |-- value1: string (nullable = true)

我的保存声明:

 data.select("id", "timeStamp", "value1")
    .write.format("org.apache.spark.sql.cassandra")
      .mode(SaveMode.Append)
      .options(Map("keyspace" -> "some_keyspace","table" -> "table"))
      .save()

当我将值2列添加到我的数据帧时,该语句可以正常工作。

root
 |-- id: string (nullable = true)
 |-- timestamp: long (nullable = true)
 |-- value1: string (nullable = true)
 |-- value2: integer (nullable = false)

有没有办法让它像CQL语句一样工作而不改变Datamodel?

1 个答案:

答案 0 :(得分:0)

静态列是由同一分区的所有行共享的特殊列。在第一个插入示例中,CQL允许您为分区插入仅静态数据:

  

插入ctest(id,timestamp,value1)VALUES(233177ff-439b-4a2d-a8b0-4db742b4bc1b,'2013-01-01 00:05 + 0000','one');

     

从ctest中选择*;

 id                                   | value2 | timestamp                | value1 | data | value3
--------------------------------------+--------+--------------------------+--------+------+--------
 233177ff-439b-4a2d-a8b0-4db742b4bc1b |   null | 2013-01-01 00:05:00+0000 |    one | null |   null

这会创建一个合成行;它看起来像一行,但它只是一个分区键和一个静态列。如果插入具有主键的实际行,则null值将消失:

  

插入ctest(id,value2)VALUES(233177ff-439b-4a2d-a8b0-4db742b4bc1b,1);

     

从ctest中选择*;

 id                                   | value2 | timestamp                | value1 | data | value3
--------------------------------------+--------+--------------------------+--------+------+--------
 233177ff-439b-4a2d-a8b0-4db742b4bc1b |      1 | 2013-01-01 00:05:00+0000 |    one | null |   null

(1 rows)

执行了两次插入后,您只有一行。

Spark-Cassandra连接器更严格,不允许您为分区插入仅静态数据。连接器代码检查是否定义了主键中的所有列。它在主键(id,value2)中找到两列,只设置了一列并引发错误。下面是com.datastax.spark.connector.writer.TableWriter中的检查:

 private def checkMissingPrimaryKeyColumns(table: TableDef, columnNames: Seq[String]) {
    val primaryKeyColumnNames = table.primaryKey.map(_.columnName)
    val missingPrimaryKeyColumns = primaryKeyColumnNames.toSet -- columnNames
    if (missingPrimaryKeyColumns.nonEmpty)
      throw new IllegalArgumentException(
        s"Some primary key columns are missing in RDD or have not been selected: ${missingPrimaryKeyColumns.mkString(", ")}")
  }

关于这方面的更多背景知识,本书学习Apache Cassandra 由Mat Brown讨论了第53-54页上的静态插入。