HTML的字段映射

时间:2012-11-09 10:10:33

标签: solr nutch

我现在是Solr和Nutch。我对solr / nutch schema.xml中的字段映射有疑问。我希望solr / nutch从我的某个网站获取一些关键字。我知道schema.xml有一个字段映射部分,允许我这样做。我想知道的是我应该如何将关键字字段放在HTML中?我应该只是隐藏HTML隐藏字段:

<input type="hidden" name="keyword" .... /> 

或者我应该使用

<meta/> 

标签?

1 个答案:

答案 0 :(得分:1)

extracting element from HTML by XPATH已完成工作,因此您可以查看它。

但是,使用元标记可能是更好的选择,因为html页面通常会因xpath表达式而格式错误。您可以使用Index Metatags与Nutch一起提取元标记并填充Solr中的字段。