如何使用solr查看nutch抓取的数据?

时间:2014-04-11 14:04:26

标签: apache solr lucene nutch

我是Nutch和Solr的新手。所以,如果我提出基本问题,我会提前道歉。

环境细节:

  1. 带有来宾操作系统的虚拟盒:Ubuntu 12.04.4,主机操作系统:Windows 8
  2. Nutch发布:Apache nutch 1.7
  3. Solr发布:Apache Solr 3.6.2
  4. 参考wiki.apache.org/nutch/NutchTutorial
  5. 我使用命令启动抓取 -

    bin/nutch crawl urls -solr http://<code>mylocalhost<code>:8983/solr/ -depth 3 -topN 5
    

    此命令成功,没有错误。

    之后,我在浏览器中打开了solr管理页面,并尝试使用默认查询字符串进行搜索:\*:*。但是,这导致了一个包含以下内容的页面:

    This XML file does not appear to have any style information associated with it. The document tree is shown below.
    <response>
        <lst name="responseHeader">
            <int name="status">0</int>
            <int name="QTime">0</int>
            <lst name="params">
                <str name="start">0</str>
                <str name="q">*:*</str>
                <str name="rows">10</str>
                <str name="indent">on</str>
                <str name="version">2.2</str>
            </lst>
        </lst>
        <result name="response" numFound="0" start="0"/>
    </response>
    

    当我尝试在solr中搜索“nutch”时,会导致错误:“HTTP Error 400”。

    你能不能帮我看看nutch抓取的数据,以便我可以验证它。

1 个答案:

答案 0 :(得分:0)

验证数据的最简单方法听起来就像您要做的那样:查询数据并确保它返回预期结果。 一些帮助:

当您说您尝试了基本查询字符串时,您是指来自solr管理员还是通过其他API?如果您使用的是solr admin,则不需要先转义*。所以q将直接。在Rest API中,*需要正确编码。像这样:

http://your_host_name:8888/solr/your_core_name/select?q=*%3A*&wt=json&indent=true

你可以做的另一件事是验证一些nutch的中间数据是使用bin / nutch命令readdb,readlinkdb,mergedb来转储爬网或链接dbs。