Question

我通过我的网站进行了IP扫描，我的apache错误日志显示了它们，我在这里打开了一个问题： Apache Error Log spammed with an error

现在，在阻止之后，新的IP正在访问我的站点（与之前的IP之前相同的目录）。该目录不存在，生成的所有内容都是随机的。

问题：

新的IP访问是66.249.74.73，当我在此处看到IP信息时：http://www.infobyip.com/ip-66.249.74.73.html它显示它是Google BOT。现在，我很困惑。我应该阻止它吗？

如果我阻止这些IP并且新的IP再次做同样的事情，我应该继续阻止这样的IP吗？难道没有永久的解决方案吗？

我在Ubuntu 15.10中使用Apache

更新现在，它已成功进入我的网站并抓取它（我没有将我的网站编入索引）只是构建它。

 [Fri Nov 20 18:36:31.026761 2015] [core:info] [pid 19594] [client 66.249.74.73:57119] AH00128: File does not exist: /var/www/html/robots.txt
 [Fri Nov 20 18:36:31.446036 2015] [core:info] [pid 19595] [client 66.249.74.69:63983] AH00128: File does not exist: /var/www/html/company/v/19175398/\xce\xe4\xba\xba\xb5\xc2\xc0\xfb\xd4\xb4\xc3\xb3\xd2\xd7\xd3\xd0\xcf\xde\xb9\xab\xcb\xbe
 [Fri Nov 20 18:36:32.228918 2015] [core:info] [pid 19595] [client 66.249.74.69:63983] AH00128: File does not exist: /var/www/html/company/v/5146022/\xd5\xf2\xbd\xad\xca\xd0\xb5\xa4\xcd\xbd\xc7\xf8\xb9\xe2\xc3\xf7\xb8\xa8\xd6\xfa\xb2\xc4\xc1\xcf\xb3\xa7

我已经在SO中打开了一个问题，但是IP一直在生成，我不知道如何阻止所有生成的IP。（手动将每一个手动添加到黑名单中吗？）

Answer 1

所有抓取工具机都会浏览/robots.txt个文件。使用以下内容创建此文件：

User-agent: *
Disallow: /

并且没有一个机器人会进一步抓取您的网站。

您可以阅读有关robots.txt here的更多信息。

Answer 2

如果robots.txt无效，您还可以尝试在.htaccess文件中使用modrewrite

onPostExecute()

IP黑名单Apache

2 个答案: