应用错误收集

时间：2018-10-18 17:11:34

标签： python web web-scraping scrapy web-crawler

我需要抓取一个网站。获取其某些页面并将它们与所有CSS文件和图像一起存储。就像将页面保存在浏览器中一样。

我尝试了硒，但是使用硒我只能保存html非完整页面，因此不可能使用硒。

答案 0 :(得分：1)

是的-您应该可以轻而易举地做到这一点在html的<head>标记内，您应该在<script>标记中看到指向javascript引用的URL，并且应该看到<link>标记，这些标记为您提供获取CSS文件的URL

一旦您获得了url，便可以轻松进行请求。繁琐的教程显示了这一点： https://doc.scrapy.org/en/latest/intro/tutorial.html#a-shortcut-for-creating-requests

这些url包含原始的CSS或javascript，您可以单独下载该URL或构造一个新的单个HTML文档

要注意的一件事是<script>标签可能包含完整的javascript而不是url引用。在这种情况下，您将在获取html部分时获取数据