我正在尝试开发一个搜索功能,我输入一个城市名称,它会告诉我该城市的天气状况 我在我的系统上设置了Nutch-1.3和Solr-3.4.0。我抓取的网站是here并将索引传递给Solr进行搜索。现在,我想查询this link上显示的信息,查询德里。
我怎样才能做到这一点?是否需要编写任何插件?
<doc><float name="score">1.0</float><float name="boost">0.1879294</float><str name="content"/><str name="digest">d41d8cd98f00b204e9800998ecf8427e</str><str name="id">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str><str name="segment">20111118153543</str><str name="title"/><date name="tstamp">2011-11-18T10:06:45.604Z</date><str name="url">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str></doc>
答案 0 :(得分:1)
Nutch基本上会抓取页面上的链接 但是,India page上没有链接可以访问您提到的Delhi page 因此,它无法将其导航到该页面。
您可以创建自己的虚拟html页面,充当索引的起始网址,并拥有您想要Nutch索引的所有链接。
您架构中的默认搜索字段是什么?
通常它的文本字段和查询德里将查看该字段的匹配
因为*:*
返回德里结果,而德里则没有。它与正在搜索的字段上的索引标记不匹配。
架构中为url定义的字段类型是什么?
您可以使用文本分析将该字段复制到其他字段,这将生成delhi标记,并且查询url_copy:delhi
应该返回结果。