有关各种数据源集成的问题

时间:2009-08-31 18:54:57

标签: web-services etl

我们有4个数据源.2个数据源是内部的,我们可以直接连接到数据库。对于第3个数据源,我们得到一个平面文件(.csv)并且必须提取数据.4rth数据源是外部的,我们无法访问直接。

我们需要从所有4个数据源中提取数据,对它们运行业务规则并将它们存储在我们的数据库中。我们有一个在这个数据库之上运行的Web应用程序。每个月我们都必须提取数据并对现有数据进行任何更新/删除/添加等。

我对这个过程一无所知。你能不能指出一些好书来研究这个话题。

这些是我正在考虑的当前方法。

  • 编写内部Web服务,与内部数据和内部数据进行通信。使用中间件为外部数据源创建处理程序(mqseries已在其他现有项目中为此设置,计划重用该项目)。来自csv的数据再次使用Java文件。 在此数据上运行Java的一些业务规则。使用此数据。 这种方法可能在我的开发框中运行,但不确定prod中可能出现的所有问题(特别是由于同步)
  • 使用普通java jdbc连接从内部提取数据。对于剩余的2个获取平面文件,使用sql loader转储数据。所有数据首先转到临时表。运行规则通过pl / sql并使用。
  • 使用一些像informatica这样的ELT工具来获取perl中的data.write业务规则(由informatica调用)

感谢。

1 个答案:

答案 0 :(得分:2)

Ralph Kimball这样的书“The Data Warehouse ETL Toolkit”是学习技术/架构的好资源,可以将来自不同来源的数据集中到一个地方。