提到我的问题我有一个问题
具体来说,我的问题是连接cassandra和流媒体类型即将发布的数据。因为我已经连接了cassandra和spark以及从twitter获取数据。我这样做了,但是分开了。现在我想从twitter获取数据时,写一个表一个键空间。我怎么能这样做?
我的代码在那里。
val conf = new SparkConf()
.set("spark.cassandra.connection.host", "127.0.0.1")
.set("spark.cleaner.ttl", "5000")
.setMaster("local[2]").setAppName("myapp")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(2))
val tweetsA = TwitterUtils.createStream(ssc, None, Array("searchword"))
val tweets_mystring = tweetsA.filter(_.getText.contains("searchword2")).map(ttext => ttext.getText)
tweets_mystring.map(??????).saveToCassandra("mykeyspace", "mytable")
//i can't write my map function like where ????
ssc.start()
ssc.awaitTermination(60000)
ssc.checkpoint(checkpointDir)
}
}
答案 0 :(得分:-2)
嘿嘿响应有点晚了,但我会调查DataStax。它非常支持Spark Streaming和Cassandra的组合。易于使用的软件将数据流式传输到Cassandra,并将继续得到支持,因为他们目前拥有约1.9亿美元的投资资金。以下是一个使用它的简单示例。
https://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/spark/sparkSave.html