将Kafka中的Avro转换成Parquet直接转换成S3

时间:2019-06-13 14:28:57

标签: amazon-s3 apache-kafka parquet apache-kafka-connect

我在Kafka中有以Avro格式存储的主题。我想使用整个主题(在接收时不会更改任何消息)并将其转换为Parquet,直接保存在S3中。

我目前正在执行此操作,但它要求我一次使用一次来自Kafka的消息并在本地计算机上进行处理,然后将它们转换为Parquet文件,一旦整个主题都被使用并且Parquet文件被完全写入,请关闭本文处理,然后启动S3多部分文件上传。或简称为| Avro in Kafka -> convert to parquet on local -> copy file to S3 |

我想做的是| Avro in Kafka -> parquet in S3 |

警告之一是Kafka主题名称不是静态的,需要输入一个参数,使用一次,然后再也不使用。

我研究了Alpakka,似乎有可能-但是还不清楚,我还没有看到任何例子。有什么建议吗?

1 个答案:

答案 0 :(得分:1)

您刚刚描述了Kafka Connect :)

Kafka Connect是Apache Kafka的一部分,并带有S3 connector plugin。尽管目前Parquet支持的开发是still in progress

有关Kafka Connect的入门知识,请参见http://rmoff.dev/ksldn19-kafka-connect