我需要抓取一个网站。 获取其某些页面并将它们与所有CSS文件和图像一起存储。就像将页面保存在浏览器中一样。
我尝试了硒,但是使用硒我只能保存html非完整页面,因此不可能使用硒。
我想知道我可以使用Scrapy吗?
如果无法使用Scrapy,我还能使用什么呢?
答案 0 :(得分:1)
是的-您应该可以轻而易举地做到这一点
在html的<head>
标记内,您应该在<script>
标记中看到指向javascript引用的URL,并且应该看到<link>
标记,这些标记为您提供获取CSS文件的URL
一旦您获得了url,便可以轻松进行请求。繁琐的教程显示了这一点: https://doc.scrapy.org/en/latest/intro/tutorial.html#a-shortcut-for-creating-requests
这些url包含原始的CSS或javascript,您可以单独下载该URL或构造一个新的单个HTML文档
要注意的一件事是<script>
标签可能包含完整的javascript而不是url引用。在这种情况下,您将在获取html部分时获取数据