我正在尝试抓取页面上的所有餐馆URL。在这个特定的例子中,只有5个餐馆网址可供使用。
在这个阶段,我只是想打印它们以查看我的代码是否有效。但是,我甚至无法完成这项工作: - 我的代码无法找到任何网址。
import scrapy
from hungryhouse.items import HungryhouseItem
class HungryhouseSpider(scrapy.Spider):
name = "hungryhouse"
allowed_domains = ["hungryhouse.co.uk"]
start_urls = ["https://hungryhouse.co.uk/takeaways/westhill-ab32",
]
def parse(self, response):
for href in response.xpath('//div[@class="restsRestInfo"]/a/@href'):
url = response.urljoin(href.extract())
print url
任何关于为什么找不到这五个网址的指导都会感激不尽。