我正在努力确保我们的robots.txt文件是正确的,并且非常感谢一些信息。我们希望所有机器人能够抓取并索引主页和“样本triallines”,但就是这样。这是文件:
User-agent: *
Allow: /$
Allow: /sample-triallines$
Disallow: /
任何人都可以告诉我这是否正确? 提前谢谢。
答案 0 :(得分:0)
您可以使用robots testing tool或大多数主要搜索引擎的网站管理员工具(例如Google Search Console)直接测试您的XML站点地图。您当前的robots.txt文件适用于您提及的确切网址的大多数抓取工具(例如https://www.example/和https://www.example/sample-triallines)。
但是,请注意,如果您的网址偏离这些确切的网址,则会阻止这些网址加入抓取工具(例如跟踪参数)。例如,以下网址将使用当前的robots.txt设置进行屏蔽,这可能会或可能不会为您正在处理的内容所接受。
https://www.example/sample-triallines?marketing=promo
如果需要抓取上述任何网址,您只需根据需要在robots.txt文件中添加其他指令,并在机器人测试工具中对其进行测试。有关机器人指令的更多信息,请访问here。
希望这有帮助