Kudu巢场

时间:2017-11-16 13:14:08

标签: apache-spark nested apache-kudu

我对Kudu有嵌套字段的问题。

我有来自Kafka的JSON:

{
  "ts": 32,
  "status": "success",
  "uid": "3232",
  "url": "http://some_url",
  "syncpixel": "http://some_url",
  "dfp": {
    "DFP_UABrowser": "Chrome 61",
    "DFP_UAOperatingSystem": "Windows 7 ver.7.0",
    "JavascriptDisplayData_Screen_W_x_H": "1440 x 900",
    "Native_client": true
  }
}

dfp字段有一个嵌套对象,我想通过Flume将此对象插入kudu

我知道kudu不支持嵌套字段,并且支持二进制列。 我需要做什么?

  1. 将字段dfp转换为二进制格式并阅读例如scala spark?
  2. 以平整格式转换JSON(但在许多情况下不是最佳问题,例如在产品ID,名称和其他产品或页面中的产品视图中购买流式产品)。

1 个答案:

答案 0 :(得分:0)

如果您使用Spark / Scala,则在具有正确的设置群集时将不会出现流传输并出现问题。 通过spark阅读整个json并使用“爆炸”功能展平json。 这将使生活更轻松。