我最近在接受采访时被问到以下问题。
"您如何设计一个系统来跟踪xyz.com上的一百万个项目? xyz.com可能每天更新价格2-3次或每月更新一次,所以没有频率保证。 您的系统应在任何给定时间点显示> 95%的项目的准确价格,目标是99%。 还可以扩展到10亿件物品等。 "
我按照创建分布式系统应用程序的方式回答,该应用程序将按优先级(基于历史价格波动和80/20%规则等)对项目进行分类,并为这些更频繁地执行API调用。
但我不允许使用API调用。
我建议抓取HTML内容。 (但是网站可以阻止我的ip以获得如此高的负载)
我基本上想知道有助于我解决这类问题的资源。喜欢全长课程(分布式系统?)或书籍,而不是快速修复博客。