Question

我需要对以下架构的数据执行漏斗分析：

A(int X) Matched_B(int[] Y) Filtered_C(int[] Z)

其中，

所有数据都存储在HDFS的avro文件中。用于在HDFS中存储数据的QPS大约为12000。

我需要准备以下报告：

基本上我想知道这个任务是否只能用Hive执行？

目前，我正在考虑以下架构。

HDFS(avro_schema)--> Hive_Script_1 --> HDFS(avro_schema_1) --> Java Application --> HDFS(avro_schema_2) --> Hive_Script_2(external_table) --> result

其中，

avro_schema_1

Hive_Script_1

Lateral View explode(Matched_B

avro_schema

A(int X) Matched_B_1(int Y) Filtered_C(int[] Z)

A(int X) Matched_B(int Y) Matched_Y(1 if Y is matched, else 0) Filtered_Y(1 if Y is filtered, 0 otherwise)

最后，我们可以运行一个Hive脚本来处理每天生成的事件的数据。

另一种架构可能是我们删除了avro_schema_1代，并直接从Java应用程序处理avro_schema并生成结果。

但是，我想避免为此任务编写Java应用程序。有人能指出我对上述问题的Hive解决方案吗？

还希望有一些架构的POV能够有效解决这个问题。

注意：请建议考虑QPS（12000）的解决方案。