我们有4个数据源.2个数据源是内部的,我们可以直接连接到数据库。对于第3个数据源,我们得到一个平面文件(.csv)并且必须提取数据.4rth数据源是外部的,我们无法访问直接。
我们需要从所有4个数据源中提取数据,对它们运行业务规则并将它们存储在我们的数据库中。我们有一个在这个数据库之上运行的Web应用程序。每个月我们都必须提取数据并对现有数据进行任何更新/删除/添加等。
我对这个过程一无所知。你能不能指出一些好书来研究这个话题。
这些是我正在考虑的当前方法。
感谢。
答案 0 :(得分:2)
Ralph Kimball这样的书“The Data Warehouse ETL Toolkit”是学习技术/架构的好资源,可以将来自不同来源的数据集中到一个地方。