使用scrapy爬网时,使用相同内容(例如/产品)抓取网址

时间:2017-04-18 19:22:23

标签: python web-scraping scrapy web-crawler e-commerce

如何使用scrapy抓取具有相同条件的多个页面?示例:我想识别电子商务网站中不包含产品照片(或其他内容)的所有产品页面

class SomewebsiteProductSpider(scrapy.Spider):
name = "test"
allowed_domains = ["test.com"]

start_urls = [test.com/product]

在许多示例中,我看到启动网址始终对应于单个页面。

有可能吗?谢谢!

1 个答案:

答案 0 :(得分:0)

如果您想识别网页的所有项目,从一个页面(通常是网站的主页面)开始,这是一个很好的做法,并从那里开始抓取。您想要使用您感兴趣的列出所有类别的网站页面。

使用scrapy,您可以定义蜘蛛应该遵循哪些链接以及应该解析哪些页面并将信息返回给您。

所以它是可能的,scrapy是一个很好的工具。