有一个垃圾网站是我网站的精确副本。他们不断抓取我的网站,并在20分钟内更新/添加内容(字面上全部30k +网址)。经过一番研究,我很肯定他们正在抓取我的网站并将其存储在他们的服务器上。
他们使用CloudFlare,因此我无法知道他们真正的IP地址。我可以通过知道域名以某种方式阻止他们抓取我的网站(VIA .htaccess或其他东西)吗?
答案 0 :(得分:2)
他们运行爬行脚本的服务器完全可能与他们托管克隆的服务器完全分开,即使他们没有使用Cloud Flare。
但是,如果他们正在抓取所有内容,那么在服务器的访问日志中应该非常明显。如果您不知道它们在哪里,请与您的托管服务提供商联系。然后查找列出的最常见的IP地址,并尝试使用以下内容阻止它们:
Order Allow,Deny
Allow from All
Deny from x.x.x.x