应用错误收集

我想知道我需要用什么技术来编写我的应用程序。要求：

数据：主表，可以有数百万行。此表中的数据不会更改（但每天都会添加行），但会有其他表（事务表）更新/插入/删除，这些表也将根据处理数量达到数百万行。 / p>

处理：主表有一列行类别。我需要从每个类别中随机抽取一行并进行处理。处理时间将非常短，但随机行选择将非常高，可以是数百万。意味着我需要每小时拉出数百万行并处理。我需要将处理过的细节存储在其他表中。

使用带火花的蜂巢表是否可以？我是hadoop技术的新手。但我的目的是编写一个高度可扩展的应用程序。我是否需要为每个类别而不是单个主表创建一个表？可以在hive中维护其他事务表吗？还有其他选择吗？

万分感谢您的投入！

Chintu