Web爬网程序中的索引步骤

时间:2014-04-21 09:42:20

标签: python web-crawler

我正在编写一个网络爬虫(专注于网络爬虫),其中:
输入:seedsURL
输出:更大的seedsURL

  def crawl(seedURL, pageslimit):
      crawling code ...

      return list of urls crawled 

现在我需要索引和存储数据,以便快速准确地检索信息(搜索引擎)。

  1. 我的抓取工具返回网址列表,如何将其传递到索引阶段?我应该在文本文件中下载每个页面的内容吗?
  2. 是否有一些工具或库可以执行索引步骤?或者手动完成它?

1 个答案:

答案 0 :(得分:0)

您绝对应该使用Scrapy来完成此网页抓取工作。我将举例说明如何使用它以及您的Web索引应该如何使用。还有其他问题,请去网站查看!

使用Scrapy提供的XPath表达式,您可以提取所需的资源,包括整个文件。

例如:<h1>Darwin - The Evolution Of An Exhibition</h1>

XPath表达式://h1/text()

为什么这样?使用h1标记,您可以将其设置为字典中的键。通过使用字典,您可以更轻松地访问文件。像这样:

web_index = {
    'Darwin': 'example.html',
    'Evolution': 'example.html'
}

网页索引最好是在字典中,因为它是一个键值对,您可以轻松地搜索&#39;来自,而不是在您依赖其索引的列表中。