将向我们提供数据的客户之一具有基于REST的API。此API将从客户端的大数据柱状存储中获取数据,并将数据转储为对请求的查询参数的响应。 我们将发出如下查询
http://api.example.com/biodataid/xxxxx
挑战是尽管反应非常巨大。对于给定的id,它包含JSON或XML响应,其中至少有800 - 900个属性作为单个id的响应。客户拒绝改变服务,无论出于何种原因我都不能在此引用。此外,由于一些限制,我们每天只能获得4-5小时的窗口来下载大约25000到100000个ID的数据。
我已阅读有关响应的同步与异步处理的内容。有哪些选项可用于设计数据处理服务以有效加载到关系数据库?我们使用python进行数据处理,使用mysql作为当前数据(更新的数据)存储,使用H-Base作为后端大数据存储(最近和历史数据)。目标是检索此数据并处理并尽快将其加载到MySQL数据库或H-Base存储。
如果您已经构建了高吞吐量处理服务,那么任何指针都会有所帮助。是否有任何资源可以通过示例实现来创建此类服务?
PS - 如果这个问题听起来太高,请发表评论,我会提供更多细节。
感谢您的回复。