标签: solr
为了避免数据重复,我打算只存储一个已爬网的HTML文件,但是在索引时使用SOLR中的过滤器或函数完成了对Xpath的HTML解析。
html本身没有被编入索引但被转换为solr将使用Xpath索引的字段。
我是SOLR的新手,但我可以想象我应该能够做到这样的事情:
如果您有任何信息,谢谢。