我正在使用 apache-nutch-1.4 与 apache-solr-3.2.0
我已成功将 NUTCH 与 SOLR
整合当我查询以下内容时
mysite的/ solr的/选择/ Q =骨&安培;版本= 2.2&安培;开始= 0&安培;行数= 10安培;缩进=上
它给了我以下结果
<doc>
<float name="boost">1.0117649</float>
<str name="cache">content</str>
<str name="content"></str>
<str name="digest">9bf016ea547cf50be81e468553c483de</str>
<str name="id">http://107.21.107.118:8000/</str>
<str name="segment">20120214151903</str>
<str name="title">Home</str>
<date name="tstamp">2012-02-14T10:19:08.215Z</date>
<str name="url">mysite:8000/</str>
</doc>
问题是当我必须搜索特定类别的骨骼,如癌症或结直肠癌&amp;消化
那么 param 我需要在上面的查询中添加以获取此特定类别的记录
mysite的:8983 / solr的/选择/ Q =骨&安培; ????????
我有像
这样的网址mysite:8000 / Encyclopedia / Patient Centers /
mysite:8000 / Encyclopedia / Patient Centers / Cancer /
mysite:8000 / Encyclopedia / Patient Centers / Cancer / Colorectal&amp;消化/
我的 schema.xml 文件看起来像是我在 NUTCH 目录中添加的....
我的声誉不是10,所以我不能在这里做任何附件,这就是为什么我需要在dpaste.org上粘贴schema.xml ...
很抱歉它可能造成的不便。我将真正地劝告你的建议和新闻......
答案 0 :(得分:0)
首先,你必须储存癌症和结肠直肠癌。消化类别领域。您可以使用http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.PathHierarchyTokenizerFactory。然后 URL可能看起来像mysite:8983 / solr / select /?q = bone&amp; fq = category:Cancer