适用于本地数据缓存的智能分页算法

时间:2017-01-31 15:25:41

标签: algorithm pagination

这是我长期以来一直在思考的一个问题,但我还没有编写任何代码,因为我首先要解决一些我正在努力解决的一般性问题。这是主要的一个。

背景

单页Web应用程序向一些远程API(由我们控制)发出数据请求。然后,它将此数据存储在本地缓存中,并从那里提供页面。理想情况下,应用程序在离线时仍可完全正常运行,包括创建新对象的功能。

约束

  • 假设包含+ - 50000个产品(50Mb)
  • 的产品的服务器端数据库
  • 假设没有db类型,我们通过REST / GraphQL接口与它进行交互
  • 假设单个产品记录是< 1kB的
  • 假设结果集的最大有效负载为256kB
  • 假设客户端上存储最多5MB
  • 假设搜索结果集在每次搜索0到5000个项目
  • 之间

挑战

挑战在于定义一种无状态但(网络)有效的方式从结果集中获取页面,以便确定我们将获得哪些结果。

实施例

在传统的分页中,当使用此URL获取下一个100个查询结果时:

https://example.com/products?category=shoes&firstResult=100&pageSize=100

搜索结果可能如下所示:

{
  "totalResults": 2458,
  "firstResult": 100,
  "pageSize": 100,
  "results": [
    {"some": "item"},
    {"some": "other item"},
    // 98 more ...
  ]
}

问题在于,根据此信息,无法使完全某个页面上的对象。因为在我们请求下一页时,结果集可能已更改(由于DB中的更改),从而影响哪些项是结果集的一部分。即使是一个小小的变化也会产生很大的影响:从数据库中删除的一个项目(恰好位于结果集的第0页)将改变我们在请求所有后续页面时获得的结果。

目标

我正在寻找一种机制来使结果集的定义独立于未来的数据库更改,所以如果有人在寻找鞋子并获得2458项的结果集,他实际上可以可靠地获取该结果集的所有页面即使它受到后来DB更改的影响(我打算不删除项目,但为此设置了删除的标志)

到目前为止的想法

我见过一个解决方案,其中结果集包含"pages"属性,该属性是一个数组,其中包含该页面中项目的第一个和最后一个ID。假设您的ID数量不断上升并且您实际上没有从DB中删除项目,则两个ID之间的项目数量是不变的。这意味着应用程序可以获取这两个ID之间的所有项目,并始终返回完全相同的项目。这个解决方案的问题是它只有在列表按ID顺序排序时才有效...我需要自定义排序选项。

我现在提出的唯一方法就是在结果集中发送所有ID的列表......这样就可以通过SELECT * FROM products WHERE id IN (3,4,6,9,...)来获取页面...但这感觉相当不雅...

任何方式我都希望它不是太广泛或理论上的。我有一个基于Web的数据库,不知道如何使用它进行分页。我正在寻找帮助我学习方向的答案,而不是完整的解决方案。

2 个答案:

答案 0 :(得分:2)

版本控制DB是结果集一致性的答案。 每条记录都有主要ID,修改计数器(版本号)和修改/创建的时间戳。您可以添加具有相同ID,版本号+ 1和sysdate的新记录,而不是修改记录r。

在获取响应中,您添加了DB request_time(由于客户端/服务器之间可能存在时间差异,因此不要使用客户端时间戳)。第一页正常提供,但您将sysdate作为request_time返回。其他页面的服务方式不同:您为每个版本化表添加了像modification_time< = request_time这样的条件。

答案 1 :(得分:1)

当查询首次到达时,您可以在服务器端缓存ID的结果集,并将唯一ID返回给前端。此唯一ID对应于该查询的结果集。所以现在前端可以使用它第一次进行查询时获得的唯一ID来请求next_page之类的内容。您仍应继续将DELETE操作更改为removed操作,因为这样可确保结果集中的所有条目都不会被删除。当前端到达结果集的末尾时,您可以从缓存中丢弃查询的结果集,或者可以设置缓存条目生命周期的时间限制。