如何在使用Javascript或Json的Reddit中刮取具有相同类名的项目?

时间:2019-05-17 14:53:34

标签: web-scraping scrapy scrape

我很难在Reddit中抓取URL项

我使用了response.xpath,但我不知道为什么它只得到两个项目。我也使用crawlera来禁止IP。但是我真正关心的是如何获得物品。

以下是网址:

https://www.reddit.com/r/teslamotors/new/

我的代码:

response.xpath("//a[@class = 'b5szba-0 fMXvWW']/@href").getall()

输出:

['https://www.youtube.com/watch?v=xWPM9HkwLn4&feature=youtu.be', 'https://www.cbc.ca/news/canada/british-columbia/man-nearly-run-over-by-suv-as-boat-and-suv-sink-1.5139313']

所需的输出是获取这些示例URL的“ HREF”文本(带省略号的红色)

fox40.com/2019/0...
i.imgur.com/OYWPxF...
youtu.be/jQioNt...
etc

有什么想法吗?

0 个答案:

没有答案