我正在试图找出为website我正在构建的缓存的最佳方法。它严重依赖屏幕抓取维基百科网站。这是我目前正在做的过程:
因为它依赖于屏幕抓取和DOM操作,所以我试图保持速度快,这样我每个主题只需要做一次而不是每个请求。以下是我的问题:
非常感谢任何和所有建议,指导等。
谢谢!
答案 0 :(得分:1)
缓存策略:将HTML写入静态文件,让用户从该文件下载。 压缩策略:查看Google's PageSpeed Best Practices。
答案 1 :(得分:1)
您可以尝试使用VaryByParam = topic为您的页面启用OutputCache。如果多个客户端请求,则将页面的副本存储在内存中。当页面不在内存中时,服务器可以从您的数据库中检索它。 OutputCache的优点在于您甚至可以存储HTML的gzip压缩版本(使用VaryByEncoding)
如果您解压缩从Wikipedia获得的内容是个问题,那么请不要发送Accept-Encoding标头。这应该迫使维基百科将页面发送给您未压缩的页面。