Question

我正在编写一个网络爬虫（专注于网络爬虫），其中：
输入：seedsURL
输出：更大的seedsURL

  def crawl(seedURL, pageslimit):
      crawling code ...

      return list of urls crawled

现在我需要索引和存储数据，以便快速准确地检索信息（搜索引擎）。

Answer 1

您绝对应该使用Scrapy来完成此网页抓取工作。我将举例说明如何使用它以及您的Web索引应该如何使用。还有其他问题，请去网站查看！

使用Scrapy提供的XPath表达式，您可以提取所需的资源，包括整个文件。

例如：<h1>Darwin - The Evolution Of An Exhibition</h1>

XPath表达式：//h1/text()

为什么这样？使用h1标记，您可以将其设置为字典中的键。通过使用字典，您可以更轻松地访问文件。像这样：

web_index = {
    'Darwin': 'example.html',
    'Evolution': 'example.html'
}

网页索引最好是在字典中，因为它是一个键值对，您可以轻松地搜索＆＃39;来自，而不是在您依赖其索引的列表中。