如何解析带有nutch和索引特定标记的html到solr?

时间:2012-09-09 12:15:33

标签: solr nutch apache-tika

我已经安装了nutch和solr来抓取一个网站并在其中搜索;如你所知,我们可以使用nutch的解析元标记插件将网页的元标记索引到solr。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道是否有任何方法可以抓取另一个html标记到solr不是meta?(插件或者无论如何)像这样:

<div id=something>
      me specific tag
</div>

的确,我想在此页面中添加一个具有“me specific tag”值的solr(某物)字段。

任何想法?

4 个答案:

答案 0 :(得分:3)

我为你想要的类似的东西制作了自己的插件。 用于将NutchDocument映射到SolrDocument的配置文件位于$ NUTCH_HOME / conf / solrindex-mapping.xml 中。在这里,您可以添加自己的标签。但是你仍然必须在某个地方填写你自己的标签。

以下是一些插件提示:

  • 阅读http://wiki.apache.org/nutch/WritingPluginExample,在这里您可以找到如何简单地制作插件
  • 插件中的
  • 扩展了 ParseFilter IndexingFilter。
  • YourParseFilter 中,您可以使用 NodeWalker 查找您的特定div
  • 您的解析信息会像这样放入页面元数据

    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));

  • YourIndexingFilter 中的
  • 将页面(page.getMetadata)中的元数据添加到NutchDocument

    doc.add("your_specific_tag", value);

  • 最重要!!!!!

  • your_specific_tag 添加到以下文件:

    • Solr 配置文件 schema.xml (并重启Solr)

    field name =“your_specific_tag”type =“string”stored =“true”indexed =“true”

    • Nutch 配置文件 schema.xml (不知道是否真的有必要)
    • Nutch 配置文件 solrindex-mapping.xml

    field dest =“your_specific_tag”source =“your_specific_tag”

答案 1 :(得分:2)

你必须尝试http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.html 教程说img标记如何获取以及所有步骤都提到...

答案 2 :(得分:1)

您可以使用其中一个自定义插件来解析基于xpath(或css选择器)的xml文件:

答案 3 :(得分:0)

您可能需要检查Nutch Plugin哪个应该允许您从网页中提取元素。