我计划在Hadoop中构建一个新系统,它从外部环境中提取数据,然后进行一些转换并构建最终产品。
外部数据(如果我们可以假设它来自oracle / mysql / postgre-sql数据库,可以有n数据库架构)来到hadoop系统应该总是实时的(应插入新数据)并且更新的数据应该更新),最多可能延迟一小时(我们可以每小时轮询/推送)。
我们还可以假设我的数据库模式中存在的数据是n表,我可能只需要存在于源中的n表中的m表。并且每个表的数据大小以GB / TB为单位。所以我不能用全表更换。我应该总是将增量(更新/插入)推送/拉入hadoop系统。
Hive可以通过将我的数据划分为日期分区来支持,并且可以更快地查询,但不支持更新,因此我必须始终进行全表替换,这不可扩展。
我的最终目标是"将实时数据导入hadoop系统,读取查询性能,更新性能"。
您对我的用例的技术建议非常有用。