我在Kafka中有以Avro格式存储的主题。我想使用整个主题(在接收时不会更改任何消息)并将其转换为Parquet,直接保存在S3中。
我目前正在执行此操作,但它要求我一次使用一次来自Kafka的消息并在本地计算机上进行处理,然后将它们转换为Parquet文件,一旦整个主题都被使用并且Parquet文件被完全写入,请关闭本文处理,然后启动S3多部分文件上传。或简称为| Avro in Kafka -> convert to parquet on local -> copy file to S3 |
。
我想做的是| Avro in Kafka -> parquet in S3 |
警告之一是Kafka主题名称不是静态的,需要输入一个参数,使用一次,然后再也不使用。
我研究了Alpakka,似乎有可能-但是还不清楚,我还没有看到任何例子。有什么建议吗?
答案 0 :(得分:1)
您刚刚描述了Kafka Connect :)
Kafka Connect是Apache Kafka的一部分,并带有S3 connector plugin。尽管目前Parquet支持的开发是still in progress。
有关Kafka Connect的入门知识,请参见http://rmoff.dev/ksldn19-kafka-connect