如何使用Xpath和SOLR索引HTML中的特定标记

时间:2018-05-11 10:54:57

标签: solr

为了避免数据重复,我打算只存储一个已爬网的HTML文件,但是在索引时使用SOLR中的过滤器或函数完成了对Xpath的HTML解析。

html本身没有被编入索引但被转换为solr将使用Xpath索引的字段。

我是SOLR的新手,但我可以想象我应该能够做到这样的事情:

  1. 调用数据库索引URL
  2. 在SOLR中注册一个过滤器,该过滤器接收每条记录并将其转换为多个字段。
  3. 如果您有任何信息,谢谢。

0 个答案:

没有答案