防止网站被刮伤

时间:2013-04-25 19:05:23

标签: wordpress web-scraping

http://www.vibrantneo.org托管了一个wordpress网站,目前正在http://vibrantneo.123productpages.com/ 以某种方式克隆。非常奇怪的是,这个特定的域名(http://www.123productpages.com)似乎对 A LOT 内容做了这一点,但网上没有投诉。

此服务未加入。它未经同意就完成了。我检查了Firebug,没有提到引用该站点的原始服务器。这是恶意网站吗?为什么没有讨论影响他人的“服务”?

*更新* 事实证明,这123个产品页面实际上是以某种方式引用主机上http://www.vibrantneo.org的实际文件。例如:将wp-config更改为无效凭据可以关闭两个站点。

可能是一种木马。关于这个领域及其实践如何更加公开仍然令人困惑。希望这篇文章找到了解决失败点的同样问题的人。

*更新#2 * 所以它看起来并不像我怀疑的那样恶毒。虽然仍然非常不道德。它看起来像拉入内容并更改对其域的所有引用一样简单。所有内容仍然托管在真实服务器上。

例如:http://blah.123productpages.com将反映www.blah.com。当然,他们必须在他们的最终“设置”特定域名。

我目前的修复方法是添加一个简单的js片段来检查伪造的加密域,看看它是否是正确的域,如果不是则重定向。

以下是blah.com的一个例子。 domain只是域名,blah.com由简单的123分隔(当然可以生成更复杂的密钥)。

<script type="text/javascript">
    var u = top.location.toString();
    var domain = 'b123l123a123h123.123c123o123o123m'.toString();
    var domain_decrypted = domain.replace(/123/gi, '');

    if (u.indexOf(domain_decrypted) == -1) {
        top.location = 'http://' + domain_decrypted;
    }
</script>

2 个答案:

答案 0 :(得分:3)

如果您以公共消费方式公开内容,则可以将其删除。您可以花时间寻找看似来自刮刀的流量然后阻止该IP,但这是一个单调乏味的猫捉老鼠游戏。

我的建议是接受这个将内容放到网上并继续前进的现实。

答案 1 :(得分:1)

也许您可以向123productpages.com发送传真,禁止他们复制您的内容?

根据whois,这是他们的联系信息:

  

WhoIs检查123productpages.com:

     

= - = - = - =

     

通过以下网址注册:DomainPeople,Inc。

     

域名:123productpages.com

     

注册人联系人:WhoisProtector Inc. WhoisProtector   123productpages.com()          传真:100 N Riverside,Suite 800 Chicago,IL 60606 US

     

行政联系人:WhoisProtector Inc. WhoisProtector   123productpages.com(123productpages.com@WhoisProtector.com)
  +1.3129947654传真:100 N Riverside,Suite 800 Chicago,IL 60606 US

     

技术联系人:WhoisProtector Inc. WhoisProtector   123productpages.com(123productpages.com@WhoisProtector.com)
  +1.3129947654传真:100 N Riverside,Suite 800 Chicago,IL 60606 US

     

状态:已锁定

     

名称服务器:ns1.publishergateway.net ns2.publishergateway.net       创作日期:2009年6月28日18:47:26到期日:2013年6月28日18:47:00