我想要一种机制来缓存/索引网站的html页面。 因此,如果请求再次来到该页面,我可以简单地从缓存或索引中获取该页面并发送它。 Solr有可能吗?因为Solr似乎总是存储html的显示(文本)部分,而不是整个HTML Dom。 有没有其他开源技术可以帮助我以快速的性能做到这一点?
答案 0 :(得分:1)
这个问题中有很多缺失的细节,但特别是关于Solr的问题的答案是肯定的,Solr可以存储原始HTML就好了。通常,您使用存储=“true”的字段来检索原始HTML,并使用HTML filter索引=“true”以仅保留可搜索的文本。