使用python scrapy来废弃下一页评论

时间:2017-10-10 02:47:33

标签: python pagination scrapy

我正在使用python scrapy来获取用户评论评论,这可能有多个页面,我需要点击“查看更多”以便查看更多评论。

这是我要抓取的网页的链接: https://en.drivy.com/car-rental/berlin/dacia-dokker-218119

我注意到如果评论评论超过10条,我需要点击“查看更多”链接以获取后续评论。 我还注意到“查看更多”网址链接为https://en.drivy.com/cars/218119/reviews?page=2&rel=next

但是,如果我使用scrapy转到https://en.drivy.com/cars/218119/reviews?page=2&rel=next,该网站会将我重定向回https:// en.drivy .com / car-rental / berlin / dacia-dokker-218119我真的得不到接下来的十条评论。 (我想知道网站是否使用cookie或会话ID并将我的scrapy识别为新访问)

我知道我可以使用python selenium来打开网页并点击“查看更多”以获得评论,但是,selenium非常慢,我希望我可以使用scrapy代替。

有人可以帮我这个吗?或者至少给我一个指导方向?提前谢谢。

1 个答案:

答案 0 :(得分:0)

您应该设置"Accept: */*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"标头。您将捕获包含注释文本的JS对象。

yield Request("https://en.drivy.com/cars/218119/reviews?page=2&rel=next", parse = ..., ..., headers={'Accept': "*/*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"})