阻止WGET返回“短链接”Wordpress页面?

时间:2016-01-08 15:12:01

标签: php wordpress wget gnu

我正在使用WGET来抓取两个几乎相同的网站。

然后我计划运行DIFF以找出任何差异。 (我基本上将一个站点移动到一个新服务器,并希望确保所有这些都达到了划痕)

以下是我在旧服务器和新服务器上的抓取结果:

enter image description here

您可以在下面看到新服务器上有许多index.html?p=?个文件。

我已经设法解决这是因为代码中的标签链接到页面的“短链接”版本。这是通过一个名为'Yoast'的插件引入的,该插件存在于新服务器上但不是旧服务器上。除此之外,该网站几乎完全相同。 (甚至服务器设置等)

(目录中有超过2,000个索引文件)

enter image description here

我需要每个WGET的结果相同,以便我可以DIFF这两个网站。

这是代码中的标记,导致在新服务器上发生这种情况:

enter image description here

现在提出主要问题。如何使WGET忽略这些短链接标记并像在旧服务器上那样刮取网站?

我尝试了各种不同的WGET参数,但还没有任何工作。这是我当前的WGET命令:

wget --recursive --html-extension --page-requisites --convert-links www.domain.ac.uk

如何修改此命令以忽略“短链接”标记?

谢谢

我发现了如何删除实际标签。这对我来说不是一个解决方法,因为我需要那里的标签,但对于遇到此问题的其他人,请将其添加到您的functions.php中:

remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);

1 个答案:

答案 0 :(得分:1)

没有解决,但如果您也是您正在扫描的网站的所有者,您只需添加:

remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);

到你的functions.php隐藏元标记。