我在这里发帖,希望得到一些关于如何复制我的雇主网站的想法。
基本上我的雇主网站位于here,今天我们发现另一个位于here的无关网站已经复制了网站上每个可公开访问的网页。
现在抓住这个问题,他们似乎并没有抓住网站,现在正在从他们的服务器上提供HTML副本。相反,每次在该网站上请求页面时,它都会对我们的网站进行实时查询以提供该内容。它还可以在电子邮件中随时替换电子邮件和域名等内容。
所以我的问题是,从代码的角度来看,对我们这样做的人怎么可能这样做?
我想知道这是怎么可能的,这样我才能理解它,更重要的是希望停止并防止它再次发生?
如果这不是Stack Overflow类型的问题,请提前道歉,我相信它是。如果不是,我可以将它移动到另一个Stack Exchange站点,如果另一个更适合。
答案 0 :(得分:3)
所以我的问题是,对我们这样做的人怎么可能这样做, 从代码的角度来看?
易。他们以某种方式爬行您网站的结构,将其拆分以更改内容和然后在他们的领域重建它。有关如何完成此操作的有趣示例,请查看Meowbify。
也就是说,如果检查服务器的访问日志,您可能可以通过IP地址阻止它们。就像这样拖尾日志吧。我假设您正在运行Apache的Linux设置:
tail -f -n 200 /var/log/apache/access.log
现在有了这个,转到这个流氓网站上的一个页面,点击它&看看弹出的IP地址。为了这个例子,让我们说它是123.456.789.0
。了解?好吧,使用Apache,您可以在.htaccess
文件中执行以下操作:
order allow,deny
deny from 123.456.789.0
allow from all
这将有效阻止来自IP地址123.456.789.0
的所有Web服务器访问。
或者您可以使用iptables
完全阻止网络访问,如下所示:
iptables -A INPUT -s 123.456.789.0 -j DROP
您可能需要像sudo
那样运行它:
sudo iptables -A INPUT -s 123.456.789.0 -j DROP
那就是说,这可能就像玩Whack-A-Mole一样。所以你可能想要提出一个不同的策略。例如,您的网站是用PHP编码的吗?它是现成的系统还是定制的?您可能希望提出一种基于PHP的控制访问方法,而不是在iptables
的系统级别或在Apache等Web服务级别上执行此操作。
或者你甚至可以偷偷摸摸。如通过IP地址访问时,编码您的站点将乱码内容发送到其他站点。就像只有成堆的Lorem ipsum dolor sit amet, consectetur adipiscing elit.
垃圾一样,当你发现它们在那里时会被发送到不需要的网站。
但是这一切归结为互联网最终允许像这样抓取内容。任何网站都可以被抓取&有内容被重新占有。它并没有发生那么多,因为在社交方面它是错误的&它是不可持续的,因为你创作自己的作品意味着版权。
因此,了解版权角度,核选项将是联系网站的主机并提出版权声明。他们会因为剥夺你的工作而切断他们的服务。但这样做绝不容易。你永远不知道ISP是否合作。