Spark流式传输从Twitter获取数据并保存到Cassandra

时间:2015-11-11 08:23:31

标签: scala hadoop apache-spark spark-streaming

提到我的问题我有一个问题

具体来说,我的问题是连接cassandra和流媒体类型即将发布的数据。因为我已经连接了cassandra和spark以及从twitter获取数据。我这样做了,但是分开了。现在我想从twitter获取数据时,写一个表一个键空间。我怎么能这样做?

我的代码在那里。

     val conf = new SparkConf()
  .set("spark.cassandra.connection.host", "127.0.0.1")
  .set("spark.cleaner.ttl", "5000")
  .setMaster("local[2]").setAppName("myapp")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(2))

val tweetsA = TwitterUtils.createStream(ssc, None, Array("searchword"))


val tweets_mystring = tweetsA.filter(_.getText.contains("searchword2")).map(ttext => ttext.getText)
tweets_mystring.map(??????).saveToCassandra("mykeyspace", "mytable")
//i can't write my map function like where ????

ssc.start()
ssc.awaitTermination(60000)
ssc.checkpoint(checkpointDir)
} 
}

1 个答案:

答案 0 :(得分:-2)

嘿嘿响应有点晚了,但我会调查DataStax。它非常支持Spark Streaming和Cassandra的组合。易于使用的软件将数据流式传输到Cassandra,并将继续得到支持,因为他们目前拥有约1.9亿美元的投资资金。以下是一个使用它的简单示例。

https://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/spark/sparkSave.html