我有一个自我托管的wordpress博客,并且几乎可以预期,我发现还有另一个博客在抓我的内容,发布了我自己帖子的完美副本(文本,图片没有热链接但是已经获取并重新发布到克隆服务器,html在帖子内布局)有几个小时的延迟。
然而,我必须承认,当我在谷歌搜索与我的帖子相关的关键词时,我感到非常愤怒,抓取克隆总是排在第一位。
所以,在这里,我愿意接受建议,您是否知道如何防止我的网站成功被删除?
技术准备:
我喜欢这个问题的帮助和建议。我没有被克隆,但在我是原始出版商时却失去了该机器人的流量。
答案 0 :(得分:0)
你最终无法阻止它们,但你可能能够找到它们并弄乱它们。尝试将请求IP隐藏在HTML注释或白色白色文本中,或者只是在某个地方隐藏,然后查看副本上显示的IP。你也可以试着通过将它变成十六进制字符串或某些东西来混淆该文本,这样对于那些不知道或看起来像错误代码的人来说就不那么明显,只是因此他们没有抓住什么你正在做。
但最后,我不确定它会给你多少钱。如果他们真的不专心,而不是把它们关闭,并注意到你正在他们身上的事实,那么每当他们的一个IP出现时,你就可以给他们喂乱。这可能很有趣,通过将样本文本放入马尔可夫链中制作乱码发生器并不太难。
编辑:哦,如果页面没有被重写太多,你可以添加一些内联JS,以便它们链接到你,如果他们不删除它。比如说,只有在他们不在您的网站时才显示的横幅,给出您文章的原始链接并建议人们阅读该文章。
答案 1 :(得分:0)
您是否愿意关闭RSS Feed?如果是这样你可以做类似的事情
function fb_disable_feed() {
wp_die( __('No feed available,please visit our <a href="'. get_bloginfo('url') .'">homepage</a>!') );
}
add_action('do_feed', 'fb_disable_feed', 1);
add_action('do_feed_rdf', 'fb_disable_feed', 1);
add_action('do_feed_rss', 'fb_disable_feed', 1);
add_action('do_feed_rss2', 'fb_disable_feed', 1);
add_action('do_feed_atom', 'fb_disable_feed', 1);
这意味着如果您转到Feed页面,它只会返回第2行wp_die()
中的消息。 ,我们将它用于我们的WP软件的“免费”版本,带有if语句,因此他们无法挂钩到他们的RSS源链接到他们的主网站,这对我们来说是一个追加机会,它运作良好是我的观点,哈哈。
答案 2 :(得分:0)
尽管这篇文章有点陈旧,但我觉得如果其他人看到这个帖子并且有同样的问题,我还是会有所帮助。既然你已经从混音中删除了RSS提要,并且你非常有信心这不是一个手动的努力,那么你需要的是更好地停止他们正在使用的机器人。
首先,我建议您在IPTables中禁止代理服务器。您可以从Maxmind获取已知代理服务器地址的列表。这应该限制他们匿名自己的能力。
其次,让它们更难刮掉会很棒。您可以通过以下几种方式之一完成此任务。您可以使用javascript渲染部分或全部网站。如果没有别的,你至少可以在javascript中渲染链接。这将使他们更难以刮你。或者,您可以将内容放在页面内的iframe中。这也会使爬行和刮伤更加困难。
所有这些说,如果他们真的想要你的内容,他们很容易通过这些陷阱。老实说,打击网络诈骗者是一场军备竞赛。你不能放置任何静态陷阱来阻止他们,而是你必须不断发展你的战术。
为了完全披露,我是Distil Networks的联合创始人,我们提供反刮解决方案即服务。