从blablacar网站

时间:2018-06-11 01:27:20

标签: python web-scraping scrapy

任何人都可以帮我从blabla汽车的网址中提取骑手的详细信息,或者请一些网页潦草的想法

从blabla汽车网站的网址中提取第一个5000次的详细信息

我是网页潦草和python的新手。所以任何人都会提出一些暗示来完成任务

1 个答案:

答案 0 :(得分:2)

首先,您应该始终考虑抓取起点的位置。 在这种情况下,https://www.blablacar.in/search-car-sharing看起来很不错,因为有最流行路线的链接。

以下是您可能想要关注的管道:

  • 宣布一只蜘蛛。
  • USER_AGENTsettings.py)设置为自定义内容,以便无法获得 403 响应。
  • DOWNLOAD_DELAY设置为0.5左右,以免被禁止(可能需要使值更大)。
  • 向蜘蛛添加起点:start_urls = ['https://www.blablacar.in/search-car-sharing']
  • 添加parse方法,该方法将产生路由页面的请求。
  • 添加parse_route方法,该方法将生成有关游乐设施的信息并遵循分页。

这就是parse方法的样子:

def parse(self, response):
    for a_tag in response.css('.search-empty__meeting-points a'):
        yield response.follow(a_tag, self.parse_route)

这里是parse_route示例,解析骑行的名称和日期:

def parse_route(self, response):
    for trip in response.css('.trip-search-results li'):
        item = {}
        item['name'] = trip.css('.ProfileCard-info--name::text').extract_first().strip()
        item['date'] = trip.css('.description .time::attr(content)').extract_first()
        yield item

    for a_tag in response.css('.pagination .next:not(.disabled) a'):
        yield response.follow(a_tag, self.parse_route)

希望这能让你直截了当地解决这个问题。