我想知道我需要用什么技术来编写我的应用程序。 要求:
数据:主表,可以有数百万行。此表中的数据不会更改(但每天都会添加行),但会有其他表(事务表)更新/插入/删除,这些表也将根据处理数量达到数百万行。 / p>
处理:主表有一列行类别。我需要从每个类别中随机抽取一行并进行处理。处理时间将非常短,但随机行选择将非常高,可以是数百万。意味着我需要每小时拉出数百万行并处理。我需要将处理过的细节存储在其他表中。
使用带火花的蜂巢表是否可以?我是hadoop技术的新手。但我的目的是编写一个高度可扩展的应用程序。我是否需要为每个类别而不是单个主表创建一个表?可以在hive中维护其他事务表吗?还有其他选择吗?
万分感谢您的投入!
Chintu
答案 0 :(得分:0)
如果您的数据适合RDBMS,那么就不需要去Hadoop / Spark了。你会得到一个更复杂,更可能更慢的解决方案(由于分发,序列化等)而不仅仅是使用SQL
现在最好解决您的问题,并在以后/当您的问题发生变化时重写