我已经安装了nutch和solr来抓取一个网站并在其中搜索;如你所知,我们可以使用nutch的解析元标记插件将网页的元标记索引到solr。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道是否有任何方法可以抓取另一个html标记到solr不是meta?(插件或者无论如何)像这样:
<div id=something>
me specific tag
</div>
的确,我想在此页面中添加一个具有“me specific tag”值的solr(某物)字段。
任何想法?
答案 0 :(得分:3)
我为你想要的类似的东西制作了自己的插件。 用于将NutchDocument映射到SolrDocument的配置文件位于$ NUTCH_HOME / conf / solrindex-mapping.xml 中。在这里,您可以添加自己的标签。但是你仍然必须在某个地方填写你自己的标签。
以下是一些插件提示:
您的解析信息会像这样放入页面元数据
page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));
将页面(page.getMetadata)中的元数据添加到NutchDocument
doc.add("your_specific_tag", value);
最重要!!!!!
将 your_specific_tag 添加到以下文件:
field name =“your_specific_tag”type =“string”stored =“true”indexed =“true”
field dest =“your_specific_tag”source =“your_specific_tag”
答案 1 :(得分:2)
你必须尝试http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.html 教程说img标记如何获取以及所有步骤都提到...
答案 2 :(得分:1)
您可以使用其中一个自定义插件来解析基于xpath(或css选择器)的xml文件:
答案 3 :(得分:0)
您可能需要检查Nutch Plugin哪个应该允许您从网页中提取元素。