下载整页

时间:2018-10-18 17:11:34

标签: python web web-scraping scrapy web-crawler

我需要抓取一个网站。 获取其某些页面并将它们与所有CSS文件和图像一起存储。就像将页面保存在浏览器中一样。

我尝试了硒,但是使用硒我只能保存html非完整页面,因此不可能使用

  1. 我想知道我可以使用Scrapy吗?

  2. 如果无法使用Scrapy,我还能使用什么呢?

1 个答案:

答案 0 :(得分:1)

是的-您应该可以轻而易举地做到这一点 在html的<head>标记内,您应该在<script>标记中看到指向javascript引用的URL,并且应该看到<link>标记,这些标记为您提供获取CSS文件的URL

一旦您获得了url,便可以轻松进行请求。繁琐的教程显示了这一点: https://doc.scrapy.org/en/latest/intro/tutorial.html#a-shortcut-for-creating-requests

这些url包含原始的CSS或javascript,您可以单独下载该URL或构造一个新的单个HTML文档

要注意的一件事是<script>标签可能包含完整的javascript而不是url引用。在这种情况下,您将在获取html部分时获取数据