我有一个开发网站https://text-domain.com。 (不是真实的网站) 当我转到https://duckduckgo.com并搜索text-domain.com时,它会返回结果。
到目前为止我尝试了什么:
使用以下代码创建robots.txt
文件(放入我的根目录,即text-domain.com/robots.txt):
User-agent: *
Disallow: /
然后在我的模板文件中添加了这样的元标记:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
即便在这样做之后,我搜索了DuckDuckGo并得出了相同的结果。任何建议都会受到欢迎。
P.S
嗨,等了几天后有2个发现:
但我看到一条消息说:“我们想表明 你在这里描述,但网站不允许我们。“
是否可以完全阻止在结果中显示?
答案 0 :(得分:11)
当涉及到他们的结果时,DuckDuckGo是一个奇怪的鸭子。我已经在很多搜索引擎上对这个主题进行过相当多的研究,并且在DDG上有一些来回的电子邮件。
这是交易。他们从其他搜索引擎获取内容,如listed here。据我所知,他们的搜索结果并未指出哪个搜索引擎是其来源,因此要删除您的内容,您需要基本上往所有来源上游并从那里删除您的内容。如果这听起来很麻烦,不要担心 - 无论如何你都想这样做,对吗?
DDG也有自己的抓取工具,恰当地称为the DuckDuckBot。它确实不尊重noindex
HTML标记,也不尊重HTTP标头(它确实尊重robots.txt
),但这似乎并不重要,因为没有新结果由DuckDuckBot 创建。据我所知,这在任何地方都没有记载,但我与他们的工作人员交谈,我在下面引用:
DDG说(2014-06-06):
我们从多个来源获得结果,而我们自己的抓取工具不会导致您[问题]。我们的抓取工具只执行非常具体的任务,例如查看(而不是实际抓取)停放的域名,垃圾邮件站点等。
如果[你的网站]的结果出现在DuckDuckGo上并且不应该出现,那么它们很可能来自我们的一个上游来源。如果在那里删除,那么他们将停止在我们的结果中显示。
我回答:
好的,所以没有任何内容通过您的抓取工具放入您的索引中,这实际上不支持
noindex
HTML或HTTP代码?
他们确认:
是的!对不起,如果您发现任何异常情况,请随时告诉我们。
那么唯一剩下的问题是如何从上游提供商中删除您的内容。为此,我指向my blog,因为它与提供商不同。它的关键是:
noindex
HTML元标记和x-robots
HTTP标记(用于图片等)告诉搜索引擎不要在其结果中包含某些内容; robots.txt
屏蔽不支持noindex
或x-robots
代码的搜索引擎。奖励积分:
sitemaps.xml
个文件,使其设置为noindex
(因此不会显示在搜索结果中)。robots.txt
文件。 这是一个复杂的世界。
答案 1 :(得分:1)
DuckDuckGo应该尊重你的robots.txt
。他们的机器人DuckDuckBot
记录在https://duckduckgo.com/duckduckbot。
但请注意:DuckDuckGo机器人本身并不抓取所有内容(因为DuckDuckGo会从其他来源获取结果),因此如果您不阻止这些其他来源(如Bing)的机器人,您的网页可能仍会显示。有关详细信息,请参阅mlissner’s answer。
使用robots.txt
时,需要考虑两件事:
robots.txt
中的更改。您必须等到相关机器人再次访问您的网站。robots.txt
中被屏蔽,搜索引擎仍可能会在搜索结果中列出您的网址(没有抓取的元数据,如标题和说明)。将robots
- meta
元素与noindex
一起使用可以防止在Google等搜索引擎中列出网址,但DDG doesn’t seem可以支持这些网址。
请注意,您在示例中使用了错误的引号。它应该是
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
而不是
<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>