Question

我在这里发帖，希望得到一些关于如何复制我的雇主网站的想法。

基本上我的雇主网站位于here，今天我们发现另一个位于here的无关网站已经复制了网站上每个可公开访问的网页。

现在抓住这个问题，他们似乎并没有抓住网站，现在正在从他们的服务器上提供HTML副本。相反，每次在该网站上请求页面时，它都会对我们的网站进行实时查询以提供该内容。它还可以在电子邮件中随时替换电子邮件和域名等内容。

所以我的问题是，从代码的角度来看，对我们这样做的人怎么可能这样做？

我想知道这是怎么可能的，这样我才能理解它，更重要的是希望停止并防止它再次发生？

如果这不是Stack Overflow类型的问题，请提前道歉，我相信它是。如果不是，我可以将它移动到另一个Stack Exchange站点，如果另一个更适合。

Answer 1

所以我的问题是，对我们这样做的人怎么可能这样做，从代码的角度来看？

易。他们以某种方式爬行您网站的结构，将其拆分以更改内容和然后在他们的领域重建它。有关如何完成此操作的有趣示例，请查看Meowbify。

也就是说，如果检查服务器的访问日志，您可能可以通过IP地址阻止它们。就像这样拖尾日志吧。我假设您正在运行Apache的Linux设置：

tail -f -n 200 /var/log/apache/access.log

现在有了这个，转到这个流氓网站上的一个页面，点击它＆amp;看看弹出的IP地址。为了这个例子，让我们说它是123.456.789.0。了解？好吧，使用Apache，您可以在.htaccess文件中执行以下操作：

order allow,deny
deny from 123.456.789.0
allow from all

这将有效阻止来自IP地址123.456.789.0的所有Web服务器访问。

或者您可以使用iptables完全阻止网络访问，如下所示：

iptables -A INPUT -s 123.456.789.0 -j DROP

您可能需要像sudo那样运行它：

sudo iptables -A INPUT -s 123.456.789.0 -j DROP

那就是说，这可能就像玩Whack-A-Mole一样。所以你可能想要提出一个不同的策略。例如，您的网站是用PHP编码的吗？它是现成的系统还是定制的？您可能希望提出一种基于PHP的控制访问方法，而不是在iptables的系统级别或在Apache等Web服务级别上执行此操作。

或者你甚至可以偷偷摸摸。如通过IP地址访问时，编码您的站点将乱码内容发送到其他站点。就像只有成堆的Lorem ipsum dolor sit amet, consectetur adipiscing elit.垃圾一样，当你发现它们在那里时会被发送到不需要的网站。

但是这一切归结为互联网最终允许像这样抓取内容。任何网站都可以被抓取＆amp;有内容被重新占有。它并没有发生那么多，因为在社交方面它是错误的＆amp;它是不可持续的，因为你创作自己的作品意味着版权。