无法访问热门目录,想要阻止某些机器人

时间:2012-03-18 17:13:24

标签: html web

我有一篇文章我希望在开放许可下发布,以便其他人可以使用它,但我不希望它被turnitin读取(谷歌,如果你不知道。)

我想在我大学的public_html目录中托管它,所以我无法访问顶级目录的robots.txt。

这个问题的答案将解决如何阻止turnitin阅读页面,但允许人类和搜索引擎蜘蛛查找,阅读和索引它。

1 个答案:

答案 0 :(得分:1)

TurnitinBot一般信息页面:

https://turnitin.com/robot/crawlerinfo.html

描述了他们的抄袭预防服务如何抓取互联网内容

部分:

https://turnitin.com/robot/crawlerinfo.html#access

介绍如何配置robots.txt以通过为其用户代理添加一行来阻止TurnitinBot抓取:

    User-agent: TurnitinBot
    Disallow: ...your document...

由于您无权访问robots.txt文件,如果您可以用HTML格式公开您的文章,您可以尝试在文档中包含元标记,如:

    <meta name="TurnitinBot" content="noindex" />

(如果你没有用HTML公开并且它非常重要,可以吗?)

他们上面的crawlerinfo页面说明了#34;良好的爬行礼仪&#34;:

它还应该遵守页面中的META排除标记。

希望他们遵循他们在自己的页面上提供的礼仪。