我需要开发一个应用程序,将电子商务网站的网址作为输入,并废弃产品标题,价格与类别和子类别。
Scrapy似乎是一个很好的解决数据的解决方案,所以我的问题是如何告诉scrapy标题,价格,猫和子类别在哪里提取它们知道网站具有不同的结构并且不能真正使用相同的标签?
编辑:我必须改变我的问题,我们是否可以编写一个通用蜘蛛,它将起始网址,允许的域名和xpath或css选择器作为参数?答案 0 :(得分:-1)
类别和子类别通常在面包屑中。
一般来说,这些的css选择器将是.breadcrumb a
,这可能适用于80%的现代电子商务网站。