这个问题更多的是关于架构和库,而不是实现。
我目前正在项目工作,这需要在客户端与服务器上的远程数据库保持同步的本地长期缓存存储(每天更新一次)。对于客户端, sqlite 已被选为轻量级方法, postgresql 被选为服务器上的功能丰富的数据库。 postgres的本机复制机制是无选择的原因我需要保持客户端非常轻量级,而不依赖于像db服务器这样的外部组件。
实现语言是Python。现在我正在研究像SQLAlchemy这样的ORM,但以前没有使用过它们。
加了: 这就像遥测一样,因为客户每天只能连接大约20分钟的互联网连接
因此,主要问题是关于这种系统的架构
答案 0 :(得分:4)
在数据库之间同步数据通常不属于ORM的任务,因此您可能必须自己实现它。在您选择数据库的情况下,我不知道任何可以为您处理同步的解决方案。
有两个重要的设计选择需要考虑:
找出更改内容的最有效方法是让数据库直接告诉您。 Bottled water可以在这方面提供一些灵感。我们的想法是利用postgres用于复制的事件日志。您需要像Kafka这样的东西来跟踪每个客户已经知道的内容。这将允许您优化服务器的写入,因为您不会让客户端查询试图找出自上次在线以来发生了哪些变化。 使用event callbacks在sqlight端可以实现相同的效果,您只需在客户端上交换一些存储空间以保留要发送到服务器的更改。如果这听起来像是满足您需求的太多基础设施,那么您可以轻松实现SQL和池化,但我仍然会将其视为事件日志,并考虑它是如何实现的细节 - 可能允许更有效的实施泡沫。
构建和打包更改日志的最佳方法取决于您的应用程序要求,可用的带宽等。如果需要,您可以使用标准格式,如json,compress和encrypt。
设计应用程序将更加简单,以避免冲突,并可能在单个方向上流动数据,或者对数据进行分区,使其始终以单一方向流向特定分区。
最后一个教导是,使用这样的架构,您将获得增量更新,其中一些可能因计划外的原因(系统故障,错误,丢弃的消息等)而错过。您可以使用一些内置的启发式方法来检查您的数据是否匹配,例如至少检查每一侧的记录数量,以某种方式恢复此类错误,以最小的方式手动重新获取权威数据源,即如果服务器是权威的,客户端应该能够丢弃它的数据并重新获取它。无论如何,对于重新安装客户端等情况,您可能需要这样的机制。