将Nutch与Solr集成以进行高级搜索选项

时间:2012-02-15 07:56:44

标签: solr nutch

我正在使用 apache-nutch-1.4 apache-solr-3.2.0

我已成功将 NUTCH SOLR

整合

当我查询以下内容时

mysite的/ solr的/选择/ Q =骨&安培;版本= 2.2&安培;开始= 0&安培;行数= 10安培;缩进=上

它给了我以下结果

<doc>
<float name="boost">1.0117649</float>
<str name="cache">content</str>
<str name="content"></str>
<str name="digest">9bf016ea547cf50be81e468553c483de</str>
<str name="id">http://107.21.107.118:8000/</str>
<str name="segment">20120214151903</str>
<str name="title">Home</str>
<date name="tstamp">2012-02-14T10:19:08.215Z</date>
<str name="url">mysite:8000/</str>
</doc>

问题是当我必须搜索特定类别的骨骼,如癌症结直肠癌&amp;消化

那么 param 我需要在上面的查询中添加以获取此特定类别的记录

mysite的:8983 / solr的/选择/ Q =骨&安培; ????????

我有像

这样的网址

mysite:8000 / Encyclopedia / Patient Centers /

mysite:8000 / Encyclopedia / Patient Centers / Cancer /

mysite:8000 / Encyclopedia / Patient Centers / Cancer / Colorectal&amp;消化/

我的 schema.xml 文件看起来像是我在 NUTCH 目录中添加的....

http://dpaste.org/MTDF2/

我的声誉不是10,所以我不能在这里做任何附件,这就是为什么我需要在dpaste.org上粘贴schema.xml ...

很抱歉它可能造成的不便。

我将真正地劝告你的建议和新闻......

1 个答案:

答案 0 :(得分:0)

首先,你必须储存癌症和结肠直肠癌。消化类别领域。您可以使用http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.PathHierarchyTokenizerFactory。然后 URL可能看起来像mysite:8983 / solr / select /?q = bone&amp; fq = category:Cancer

http://wiki.apache.org/solr/CommonQueryParameters#fq