我正在使用WGET
来抓取两个几乎相同的网站。
然后我计划运行DIFF
以找出任何差异。 (我基本上将一个站点移动到一个新服务器,并希望确保所有这些都达到了划痕)
以下是我在旧服务器和新服务器上的抓取结果:
您可以在下面看到新服务器上有许多index.html?p=?
个文件。
我已经设法解决这是因为代码中的标签链接到页面的“短链接”版本。这是通过一个名为'Yoast'的插件引入的,该插件存在于新服务器上但不是旧服务器上。除此之外,该网站几乎完全相同。 (甚至服务器设置等)
(目录中有超过2,000个索引文件)
我需要每个WGET
的结果相同,以便我可以DIFF
这两个网站。
这是代码中的标记,导致在新服务器上发生这种情况:
现在提出主要问题。如何使WGET
忽略这些短链接标记并像在旧服务器上那样刮取网站?
我尝试了各种不同的WGET
参数,但还没有任何工作。这是我当前的WGET
命令:
wget --recursive --html-extension --page-requisites --convert-links www.domain.ac.uk
如何修改此命令以忽略“短链接”标记?
谢谢
我发现了如何删除实际标签。这对我来说不是一个解决方法,因为我需要那里的标签,但对于遇到此问题的其他人,请将其添加到您的functions.php中:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);
答案 0 :(得分:1)
没有解决,但如果您也是您正在扫描的网站的所有者,您只需添加:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);
到你的functions.php隐藏元标记。