应用错误收集

使用Apache Nutch＆amp; amp;模板进行基于模板的索引/提取Solr的

时间：2013-06-04 14:10:53

标签： apache solr nutch

我是Apache Nutch / Solr系列产品的新手。我已经使用Solr（4.3）设置了基本的Nutch（1.6）并成功抓取了一个站点，Solr也为我的爬行数据建立了索引。

现在我的问题是，如果我抓取一个网络博客，例如用户可以发表评论的地方（例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/），我怎样才能确保Nutch将用户的评论和主博客视为单独的文档，所以当我搜索关键字，它将主要博客和评论作为单独的结果返回给我，之后我也可以将这些数据用于情感分析。

我非常感谢这里的任何帮助。

感谢。贝

1 个答案:

答案 0 :(得分：0)

您可以使用xpath过滤器插件将已爬网内容分成两个不同的字段。 http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

class =“post”中的内容将转到字段A，class =“commentlist”中的内容将转到字段B.

在搜索页面逻辑中，您在字段A上查询Solr，以便您的搜索结果仅来自您的博文，而不是评论。

评论数据仍然针对文档保存，但无法搜索。