我想知道是否存在阻止任何搜索引擎索引网站内容的任何(编程)方式。
答案 0 :(得分:6)
您可以在robots.txt
中指定它User-agent: *
Disallow: /
答案 1 :(得分:4)
正如其他答案已经说过的那样,Robots.txt
是每个正确的搜索引擎所遵循的标准。在大多数情况下,这应该足够了。
如果你真的想尝试以编程方式阻止那些不听robots.txt的恶意机器人,请查看 this question 几个月前我问过的问题如何告诉机器人除了人类访客。你可能会在那里找到一些好的起点。
答案 2 :(得分:2)
为您的网站创建robots.txt文件。有关详细信息,请参阅this link。
答案 3 :(得分:2)
答案 4 :(得分:0)
由于你没有提到编程语言,我将从php的角度给出我的输入 - 有一个名为bad behavior的wordpress插件,它正是你正在寻找的,它是可配置的列出搜索代理程序字符串数组的代码脚本。根据代理在您网站上抓取的内容,插件会自动检查用户代理的字符串和ID,或IP地址,并根据数组,如果匹配,则拒绝或接受代理。
从程序员的代码角度来看,看看代码是如何完成的,可能值得您花些时间。
如果语言不是php,并且不满足您的要求,那么我为发布此答案而道歉。
希望这有帮助, 最好的祝福, 汤姆。