应用错误收集

递归使用Scrapy从网站上抓取网页

时间：2011-02-02 16:08:28

标签： python web-scraping scrapy

我最近开始使用Scrapy。我正在尝试从大型列表中收集一些信息，这些信息分为几个页面（大约50个）。我可以轻松地从第一页中提取我想要的内容，包括start_urls列表中的第一页。但是，我不想将这50个页面的所有链接添加到此列表中。我需要一种更有活力的方式。有谁知道我如何迭代地抓取网页？有没有人有这方面的例子？

谢谢！

2 个答案:

答案 0 :(得分：1)

使用urllib2下载页面。然后使用re（正则表达式）或BeautifulSoup（HTML解析器）来查找指向您需要的下一页的链接。用urllib2下载。冲洗并重复。

Scapy很棒，但你不需要它来做你想做的事情

答案 1 :(得分：0)

为什么不将所有链接添加到50个页面？这些网页的网址是连续的，例如www.site.com/page=1，www.site.com/page=2还是它们都是截然不同的？你能告诉我你现在的代码吗？