Scrapy - 如何从给定的网站中提取XmlHttpRequests url?

时间:2016-03-04 15:03:06

标签: xmlhttprequest scrapy web-crawler

我有兴趣只提取XHR的网址,而不是网页中的每个网址: screenshot reference

这是我的代码提取页面中的每个网址:

nvcc

谢谢,

编辑: 嗨,谢谢你的评论。 经过更多的研究,我发现了这一点:Scraping ajax pages using python 我想要的是自动做这个答案。我需要对大量的网页进行此操作并手动插入网址不是一个选项。 有没有办法做到这一点?听取网站的XHR请求并保存网址?

1 个答案:

答案 0 :(得分:0)

没有可靠的单一方法来获取网页的“ AJAX URL”。网页可以使用任意数量的AJAX URL(大多数不是您要查找的URL),并且可以通过非常不同的方式来触发它们。

此外,URL本身很少有用,每个URL都可以返回任何类型的数据,并且通常是您感兴趣的数据。

您应该逐个站点手动查找AJAX URL。