我是Nutch和Solr的新手。所以,如果我提出基本问题,我会提前道歉。
环境细节:
我使用命令启动抓取 -
bin/nutch crawl urls -solr http://<code>mylocalhost<code>:8983/solr/ -depth 3 -topN 5
此命令成功,没有错误。
之后,我在浏览器中打开了solr管理页面,并尝试使用默认查询字符串进行搜索:\*:*
。但是,这导致了一个包含以下内容的页面:
This XML file does not appear to have any style information associated with it. The document tree is shown below.
<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
<lst name="params">
<str name="start">0</str>
<str name="q">*:*</str>
<str name="rows">10</str>
<str name="indent">on</str>
<str name="version">2.2</str>
</lst>
</lst>
<result name="response" numFound="0" start="0"/>
</response>
当我尝试在solr中搜索“nutch”时,会导致错误:“HTTP Error 400”。
你能不能帮我看看nutch抓取的数据,以便我可以验证它。
答案 0 :(得分:0)
验证数据的最简单方法听起来就像您要做的那样:查询数据并确保它返回预期结果。 一些帮助:
当您说您尝试了基本查询字符串时,您是指来自solr管理员还是通过其他API?如果您使用的是solr admin,则不需要先转义*。所以q将直接:。在Rest API中,*需要正确编码。像这样:
http://your_host_name:8888/solr/your_core_name/select?q=*%3A*&wt=json&indent=true
你可以做的另一件事是验证一些nutch的中间数据是使用bin / nutch命令readdb,readlinkdb,mergedb来转储爬网或链接dbs。