应用错误收集

我很难在Reddit中抓取URL项

我使用了response.xpath，但我不知道为什么它只得到两个项目。我也使用crawlera来禁止IP。但是我真正关心的是如何获得物品。

以下是网址：

https://www.reddit.com/r/teslamotors/new/

我的代码：

response.xpath("//a[@class = 'b5szba-0 fMXvWW']/@href").getall()

输出：

['https://www.youtube.com/watch?v=xWPM9HkwLn4&feature=youtu.be', 'https://www.cbc.ca/news/canada/british-columbia/man-nearly-run-over-by-suv-as-boat-and-suv-sink-1.5139313']

所需的输出是获取这些示例URL的“ HREF”文本（带省略号的红色）

fox40.com/2019/0...
i.imgur.com/OYWPxF...
youtu.be/jQioNt...
etc

有什么想法吗？

如何在使用Javascript或Json的Reddit中刮取具有相同类名的项目？

0 个答案: