使用Apache Nutch& amp;模板进行基于模板的索引/提取Solr的

时间:2013-06-04 14:10:53

标签: apache solr nutch

我是Apache Nutch / Solr系列产品的新手。我已经使用Solr(4.3)设置了基本的Nutch(1.6)并成功抓取了一个站点,Solr也为我的爬行数据建立了索引。

现在我的问题是,如果我抓取一个网络博客,例如用户可以发表评论的地方(例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/),我怎样才能确保Nutch将用户的评论和主博客视为单独的文档,所以当我搜索关键字,它将主要博客和评论作为单独的结果返回给我,之后我也可以将这些数据用于情感分析。

我非常感谢这里的任何帮助。

感谢。 贝

1 个答案:

答案 0 :(得分:0)

您可以使用xpath过滤器插件将已爬网内容分成两个不同的字段。 http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

class =“post”中的内容将转到字段A,class =“commentlist”中的内容将转到字段B.

在搜索页面逻辑中,您在字段A上查询Solr,以便您的搜索结果仅来自您的博文,而不是评论。

评论数据仍然针对文档保存,但无法搜索。