我有一篇文章我希望在开放许可下发布,以便其他人可以使用它,但我不希望它被turnitin读取(谷歌,如果你不知道。)
我想在我大学的public_html目录中托管它,所以我无法访问顶级目录的robots.txt。
这个问题的答案将解决如何阻止turnitin阅读页面,但允许人类和搜索引擎蜘蛛查找,阅读和索引它。
答案 0 :(得分:1)
TurnitinBot一般信息页面:
https://turnitin.com/robot/crawlerinfo.html
描述了他们的抄袭预防服务如何抓取互联网内容
部分:
https://turnitin.com/robot/crawlerinfo.html#access
介绍如何配置robots.txt以通过为其用户代理添加一行来阻止TurnitinBot抓取:
User-agent: TurnitinBot
Disallow: ...your document...
由于您无权访问robots.txt文件,如果您可以用HTML格式公开您的文章,您可以尝试在文档中包含元标记,如:
<meta name="TurnitinBot" content="noindex" />
(如果你没有用HTML公开并且它非常重要,可以吗?)
他们上面的crawlerinfo页面说明了#34;良好的爬行礼仪&#34;:
它还应该遵守页面中的META排除标记。
希望他们遵循他们在自己的页面上提供的礼仪。