刮整个网页+ css + javascript

时间:2017-10-19 16:10:14

标签: javascript css go web-scraping

我正在尝试创建网页版本控制备份/日志。如果网页(包括JS和CSS)被更改,它会在驱动器上保存静态副本。

我如何get网页的CSS和javascript?只需连接到网页并阅读内容并将其返回即可轻松获取HTML。但是如何获得CSS&这个页面的Javascript也是?

系统无法直接访问网络服务器,所以我必须通过network远程执行所有操作。

我的想法是搜索我为.css和'.js'抓取的HTML,并将所有内容直到第一个引用"并直接访问CSS / javascript文件作为网页。但我认为这可能不太可靠?

不确定为什么这个标记太宽泛。我问如何获取网页的CSS和javascript。我改革了我的问题,希望现在好了。

1 个答案:

答案 0 :(得分:1)

我不是搜索.js.css,而是查找<script><link>代码,并使用他们的src和{{ 1}}属性分别执行另一个网络请求并检索这些文件以进行比较。

这样会更可靠,因为您不必担心包含hrefjs的网页内容,您还可以使用XML解析器来确保比如单引号和双引号都不是问题。