我很难在Reddit中抓取URL项
我使用了response.xpath
,但我不知道为什么它只得到两个项目。我也使用crawlera
来禁止IP。但是我真正关心的是如何获得物品。
以下是网址:
https://www.reddit.com/r/teslamotors/new/
我的代码:
response.xpath("//a[@class = 'b5szba-0 fMXvWW']/@href").getall()
输出:
['https://www.youtube.com/watch?v=xWPM9HkwLn4&feature=youtu.be', 'https://www.cbc.ca/news/canada/british-columbia/man-nearly-run-over-by-suv-as-boat-and-suv-sink-1.5139313']
所需的输出是获取这些示例URL的“ HREF”文本(带省略号的红色)
fox40.com/2019/0...
i.imgur.com/OYWPxF...
youtu.be/jQioNt...
etc
有什么想法吗?