我正在编写一个网络爬虫(专注于网络爬虫),其中:
输入:seedsURL
输出:更大的seedsURL
def crawl(seedURL, pageslimit):
crawling code ...
return list of urls crawled
现在我需要索引和存储数据,以便快速准确地检索信息(搜索引擎)。
答案 0 :(得分:0)
您绝对应该使用Scrapy来完成此网页抓取工作。我将举例说明如何使用它以及您的Web索引应该如何使用。还有其他问题,请去网站查看!
使用Scrapy提供的XPath表达式,您可以提取所需的资源,包括整个文件。
例如:<h1>Darwin - The Evolution Of An Exhibition</h1>
XPath表达式://h1/text()
为什么这样?使用h1标记,您可以将其设置为字典中的键。通过使用字典,您可以更轻松地访问文件。像这样:
web_index = {
'Darwin': 'example.html',
'Evolution': 'example.html'
}
网页索引最好是在字典中,因为它是一个键值对,您可以轻松地搜索&#39;来自,而不是在您依赖其索引的列表中。