Question

我是Nutch和Solr的新手。所以，如果我提出基本问题，我会提前道歉。

环境细节：

带有来宾操作系统的虚拟盒：Ubuntu 12.04.4，主机操作系统：Windows 8
Nutch发布：Apache nutch 1.7
Solr发布：Apache Solr 3.6.2
参考wiki.apache.org/nutch/NutchTutorial

我使用命令启动抓取 -

bin/nutch crawl urls -solr http://<code>mylocalhost<code>:8983/solr/ -depth 3 -topN 5

此命令成功，没有错误。

之后，我在浏览器中打开了solr管理页面，并尝试使用默认查询字符串进行搜索：\*:*。但是，这导致了一个包含以下内容的页面：

This XML file does not appear to have any style information associated with it. The document tree is shown below.
<response>
    <lst name="responseHeader">
        <int name="status">0</int>
        <int name="QTime">0</int>
        <lst name="params">
            <str name="start">0</str>
            <str name="q">*:*</str>
            <str name="rows">10</str>
            <str name="indent">on</str>
            <str name="version">2.2</str>
        </lst>
    </lst>
    <result name="response" numFound="0" start="0"/>
</response>

当我尝试在solr中搜索“nutch”时，会导致错误：“HTTP Error 400”。

你能不能帮我看看nutch抓取的数据，以便我可以验证它。

Answer 1

验证数据的最简单方法听起来就像您要做的那样：查询数据并确保它返回预期结果。一些帮助：

当您说您尝试了基本查询字符串时，您是指来自solr管理员还是通过其他API？如果您使用的是solr admin，则不需要先转义*。所以q将直接：。在Rest API中，*需要正确编码。像这样：

http://your_host_name:8888/solr/your_core_name/select?q=*%3A*&wt=json&indent=true

你可以做的另一件事是验证一些nutch的中间数据是使用bin / nutch命令readdb，readlinkdb，mergedb来转储爬网或链接dbs。

如何使用solr查看nutch抓取的数据？

1 个答案: