创建数据帧时输出不合适

时间:2016-12-19 12:27:17

标签: dataframe apache-kafka spark-streaming

我正在尝试使用scala应用程序从kafka主题流式传输数据。我能够从主题中获取数据,但是如何从中创建数据框?

这是数据(字符串,字符串格式)

{
  "action": "AppEvent",
  "tenantid": 298,
  "lat": 0.0,
  "lon": 0.0,
  "memberid": 16390,
  "event_name": "CATEGORY_CLICK",
  "productUpccd": 0,
  "device_type": "iPhone",
  "device_os_ver": "10.1",
  "item_name": "CHICKEN"
}

我尝试了几种方法,但它没有产生令人满意的结果。

 +--------------------+ |                  _1|
 +--------------------+ |{"action":"AppEve...| |{"action":"AppEve...| |{"action":"AppEve...| |{"action":"AppEve...| |{"action":"AppEve...|
 |{"action":"AppEve...| |{"action":"AppEve...| |{"action":"AppEve...|
 |{"action":"AppEve...| |{"action":"AppEve...|

任何人都可以告诉如何进行映射,以便每个字段都进入一个单独的列,如表格。数据采用avro格式。

这是从主题获取数据的代码。

val ssc = new StreamingContext(sc, Seconds(2))
val kafkaConf = Map[String, String]("metadata.broker.list" -> "####",
     "zookeeper.connect" -> "########",
     "group.id" -> "KafkaConsumer",
     "zookeeper.connection.timeout.ms" -> "1000000")
val topicMaps = Map("fishbowl" -> 1)
val messages  = KafkaUtils.createStream[String, String,DefaultDecoder, DefaultDecoder](ssc, kafkaConf, topicMaps, StorageLevel.MEMORY_ONLY_SER).map(_._2)

请指导我如何使用foreachRDD func和map()创建一个合适的数据框

1 个答案:

答案 0 :(得分:2)

从rdd创建数据帧,而不管其case类架构如何。 使用以下逻辑

stream.foreachRDD(
  rdd => {
     val dataFrame = sqlContext.read.json(rdd.map(_._2)) 
dataFrame.show()
        })

此处的流是从kafkaUtils.createStream()创建的rdd