我从多个网站获取相同信息我需要通过正则表达式选择div类。我正在使用scrapy和css选择器。
我可以在一个网站上这样做
response.css(“div [class ='user-review-content']”)。extract_first()
我尝试使用的正则表达式是'。评论。 |。评论。'
如何在其中集成CSS?
答案 0 :(得分:0)
if "website1.com" in response.url:
name_selector = "div.name"
elif "website2.com" in response.url:
name_selector = "span.name"
item = {}
item = response.css(name_selector).extract_first()
我已经在我的大型项目中做了很长时间。