从网页获取所有链接和图片的最快方式?

时间:2017-06-10 10:59:33

标签: wordpress web-scraping

所以这不是一个问题,而是更像是自动化的东西...
我建立了一个网站,不得不复制以前网页上的大量内容。我通过将旧页面中的内容复制粘贴到使用wordpress制作的新页面来实现这一点。

内容中的所有链接和图片仍指向旧页面。所以我想找一些类似网页抓取工具的东西来分析所选链接的列表,然后输出就是指向我网页之外的所有链接以及我必须下载的所有图像列表

2 个答案:

答案 0 :(得分:0)

考虑到您的旧网站和新网站将具有相同的网址结构,这里有一个书签,您可以将其保存为工具栏的书签。

为了简化您的工作,请打开旧的网站页面,然后只需点击您保存的书签按钮(代码如下)。此代码将替换旧网站到新网站的链接。图像将被类似地处理。接下来,您可以复制更新的内容并将其粘贴到新网站的编辑器中(wordpress admin)。

在开发人员控制台(F12键)上,您将获得必须下载的所有图像的列表。

<meta http-equiv="Content-Security-Policy" content="default-src *; style-src 'self' 'unsafe-inline'; script-src 'self' 'unsafe-inline' 'unsafe-eval'">

P.S。要保存此bookmarklet代码,请右键单击浏览器的工具栏并创建新书签,然后输入上述代码作为位置/ URL。

答案 1 :(得分:0)

这只是您应该考虑的一个选项:您可以使用绝对路径而不是相对路径,这将帮助您重用代码,而无需重新映射其中的每个链接。

Relatif Path:

<a href="/pictures/tahiti-vacation/tahiti.html">Read about my Tahiti vacation.</a>

绝对路径:

<a href="http://www.website.com/pictures/tahiti.html">Read about my Tahiti vacation.</a>