使用nutch和solr在每个页面中获取特定标题

时间:2012-08-26 05:43:57

标签: apache solr lucene nutch dismax

我安装了solr和nutch,我的网页结构是每页都标题相同;例如银行的东西;但是在每个页面中都有一个ID为TITLE的标签,如:

<div ID="TITLE"><h1>my page specific title</h1></div>

我想在第二个标题中添加另一个字段来获取我的页面特定标题并在其中搜索单词。(事实上现在我的页面特定标题在内容字段中,我希望在其他字段中有这个)

我该怎么做?!

1 个答案:

答案 0 :(得分:0)

检查Nutch Plugin,这应该允许您从网页中提取元素。