如何使用Spark Cassandra Connector创建表?

时间:2019-03-14 09:10:29

标签: scala apache-spark cassandra spark-cassandra-connector

我最近开始使用Spark Cassandra连接器,并且手动创建了表并能够保存数据。这是文档中的简化代码段:

CREATE TABLE test.words (word text PRIMARY KEY, count int);
val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
collection.saveToCassandra("test", "words", SomeColumns("word", "count"))

是否有一种方法可以通过从案例类推断模式而无需实际编写原始查询来以编程方式创建表?

1 个答案:

答案 0 :(得分:1)

是的,您可以使用saveAsCassandraTablesaveAsCassandraTableEx作为described in documentation来执行此操作。第一个函数将根据您的数据自动创建表(请注意,它将以一列作为分区键)。第二个功能将允许您通过指定分区键,群集列等来自定义架构,如下所示(代码来自文档):

val p1Col = new ColumnDef("col1",PartitionKeyColumn,UUIDType)
val c1Col = new ColumnDef("col2",ClusteringColumn(0),UUIDType)
val c2Col = new ColumnDef("col3",ClusteringColumn(1),DoubleType)
val rCol = new ColumnDef("col4",RegularColumn,IntType)

// Create table definition
val table = TableDef("test","words",Seq(p1Col),Seq(c1Col, c2Col),Seq(rCol))

// Map rdd into custom data structure and create table
val rddOut = rdd.map(s => outData(s._1, s._2(0), s._2(1), s._3))
rddOut.saveAsCassandraTableEx(table, SomeColumns("col1", "col2", "col3", "col4"))