Question

我的代码如下：

import java.util.Properties

import com.google.gson._
import com.typesafe.config.ConfigFactory
import org.apache.flink.cep.scala.pattern.Pattern
import org.apache.flink.cep.scala.CEP
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010
import org.apache.flink.streaming.util.serialization.SimpleStringSchema

object WindowedWordCount {
  val configFactory = ConfigFactory.load()
  def main(args: Array[String]) = {
    val brokers = configFactory.getString("kafka.broker")
    val topicChannel1 = configFactory.getString("kafka.topic1")

    val props = new Properties()
    ...

    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val dataStream = env.addSource(new FlinkKafkaConsumer010[String](topicChannel1, new SimpleStringSchema(), props))

    val partitionedInput = dataStream.keyBy(jsonString => {
      val jsonParser = new JsonParser()
      val jsonObject = jsonParser.parse(jsonString).getAsJsonObject()
      jsonObject.get("account")
    })

    val priceCheck = Pattern.begin[String]("start").where({jsonString =>
      val jsonParser = new JsonParser()
      val jsonObject = jsonParser.parse(jsonString).getAsJsonObject()
      jsonObject.get("account").toString == "iOS"})

    val pattern = CEP.pattern(partitionedInput, priceCheck)

    val newStream = pattern.select(x =>
      x.get("start").map({str =>
        str
      })
    )

    newStream.print()

    env.execute()
  }
}

由于某些原因，newStream.print()的上述代码中没有任何内容正在打印出来。我很肯定卡夫卡的数据与我上面定义的模式相符，但由于某种原因没有打印出来。

有人可以帮我看一下这段代码中的错误吗？

修改

class TimestampExtractor extends AssignerWithPeriodicWatermarks[String] with Serializable {

  override def extractTimestamp(e: String, prevElementTimestamp: Long) = {
    val jsonParser = new JsonParser()
    val context = jsonParser.parse(e).getAsJsonObject.getAsJsonObject("context")
    Instant.parse(context.get("serverTimestamp").toString.replaceAll("\"", "")).toEpochMilli
  }

  override def getCurrentWatermark(): Watermark = {
    new Watermark(System.currentTimeMillis())
  }
}

我在flink文档中看到，您可以在prevElementTimestamp方法（如果您使用的是Kafka010）和extractTimestamp方法中new Watermark(System.currentTimeMillis)返回getCurrentWatermark。

但我不明白prevElementTimestamp是什么或者为什么会将new Watermark(System.currentTimeMillis)作为WaterMark而不是其他东西。您能详细说明为什么我们这样做WaterMark和EventTime如何合作？

Answer 1

您确实将工作设置为EventTime，但您不提供时间戳和水印提取器。

有关在活动时间工作的更多信息，请参阅docs。如果您想使用kafka嵌入式时间戳，docs可能对您有帮助。

在EventTime中，CEP库在水印到达时缓冲事件，以便正确处理无序事件。在您的情况下，没有生成水印，因此事件将无限缓冲。

编辑：

对于prevElementTimestamp，我认为文档很清楚：

使用Kafka的时间戳时，无需定义时间戳提取器。 extractTimestamp（）方法的previousElementTimestamp参数包含Kafka消息所携带的时间戳。

由于Kafka 0.10.x Kafka消息可以嵌入时间戳。
在这种情况下，生成Watermark为new Watermark(System.currentTimeMillis)并不是一个好主意。您应该根据您对数据的了解创建Watermark。有关Watermark和EventTime如何协同工作的信息，我无法比docs

Flink图案流

1 个答案: