Question

我有一篇文章我希望在开放许可下发布，以便其他人可以使用它，但我不希望它被turnitin读取（谷歌，如果你不知道。）

我想在我大学的public_html目录中托管它，所以我无法访问顶级目录的robots.txt。

这个问题的答案将解决如何阻止turnitin阅读页面，但允许人类和搜索引擎蜘蛛查找，阅读和索引它。

Answer 1

TurnitinBot一般信息页面：

描述了他们的抄袭预防服务如何抓取互联网内容

部分：

介绍如何配置robots.txt以通过为其用户代理添加一行来阻止TurnitinBot抓取：

    User-agent: TurnitinBot
    Disallow: ...your document...

由于您无权访问robots.txt文件，如果您可以用HTML格式公开您的文章，您可以尝试在文档中包含元标记，如：

    <meta name="TurnitinBot" content="noindex" />

（如果你没有用HTML公开并且它非常重要，可以吗？）

他们上面的crawlerinfo页面说明了＃34;良好的爬行礼仪＆＃34;：

它还应该遵守页面中的META排除标记。

希望他们遵循他们在自己的页面上提供的礼仪。