Question

我已经安装了nutch和solr来抓取一个网站并在其中搜索;如你所知，我们可以使用nutch的解析元标记插件将网页的元标记索引到solr。（http://wiki.apache.org/nutch/IndexMetatags）现在我想知道是否有任何方法可以抓取另一个html标记到solr不是meta？（插件或者无论如何）像这样：

<div id=something>
      me specific tag
</div>

的确，我想在此页面中添加一个具有“me specific tag”值的solr（某物）字段。

任何想法？

Answer 1

我为你想要的类似的东西制作了自己的插件。用于将NutchDocument映射到SolrDocument的配置文件位于$ NUTCH_HOME / conf / solrindex-mapping.xml 中。在这里，您可以添加自己的标签。但是你仍然必须在某个地方填写你自己的标签。

以下是一些插件提示：

阅读http://wiki.apache.org/nutch/WritingPluginExample，在这里您可以找到如何简单地制作插件
扩展了 ParseFilter 和 IndexingFilter。
在 YourParseFilter 中，您可以使用 NodeWalker 查找您的特定div
您的解析信息会像这样放入页面元数据

page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));

YourIndexingFilter

将页面（page.getMetadata）中的元数据添加到NutchDocument

doc.add("your_specific_tag", value);
最重要!!!!!
将 your_specific_tag 添加到以下文件：
- Solr 配置文件 schema.xml （并重启Solr）
field name =“your_specific_tag”type =“string”stored =“true”indexed =“true”
- Nutch 配置文件 schema.xml （不知道是否真的有必要）
- Nutch 配置文件 solrindex-mapping.xml
field dest =“your_specific_tag”source =“your_specific_tag”

Answer 2

你必须尝试http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.html 教程说img标记如何获取以及所有步骤都提到...

Answer 3

您可以使用其中一个自定义插件来解析基于xpath（或css选择器）的xml文件：

Answer 4

您可能需要检查Nutch Plugin哪个应该允许您从网页中提取元素。

如何解析带有nutch和索引特定标记的html到solr？

4 个答案: