我是Apache Nutch / Solr系列产品的新手。我已经使用Solr(4.3)设置了基本的Nutch(1.6)并成功抓取了一个站点,Solr也为我的爬行数据建立了索引。
现在我的问题是,如果我抓取一个网络博客,例如用户可以发表评论的地方(例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/),我怎样才能确保Nutch将用户的评论和主博客视为单独的文档,所以当我搜索关键字,它将主要博客和评论作为单独的结果返回给我,之后我也可以将这些数据用于情感分析。
我非常感谢这里的任何帮助。
感谢。 贝
答案 0 :(得分:0)
您可以使用xpath过滤器插件将已爬网内容分成两个不同的字段。 http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/
class =“post”中的内容将转到字段A,class =“commentlist”中的内容将转到字段B.
在搜索页面逻辑中,您在字段A上查询Solr,以便您的搜索结果仅来自您的博文,而不是评论。
评论数据仍然针对文档保存,但无法搜索。