Question

我正在努力确保我们的robots.txt文件是正确的，并且非常感谢一些信息。我们希望所有机器人能够抓取并索引主页和“样本triallines”，但就是这样。这是文件：

User-agent: *
Allow: /$
Allow: /sample-triallines$
Disallow: /

任何人都可以告诉我这是否正确？提前谢谢。

Answer 1

您可以使用robots testing tool或大多数主要搜索引擎的网站管理员工具（例如Google Search Console）直接测试您的XML站点地图。您当前的robots.txt文件适用于您提及的确切网址的大多数抓取工具（例如https://www.example/和https://www.example/sample-triallines）。

但是，请注意，如果您的网址偏离这些确切的网址，则会阻止这些网址加入抓取工具（例如跟踪参数）。例如，以下网址将使用当前的robots.txt设置进行屏蔽，这可能会或可能不会为您正在处理的内容所接受。

https://www.example/index.html
https://www.example/?marketing=promo
https://www.example/sample-triallines/
https://www.example/sample-triallines?marketing=promo

如果需要抓取上述任何网址，您只需根据需要在robots.txt文件中添加其他指令，并在机器人测试工具中对其进行测试。有关机器人指令的更多信息，请访问here。

希望这有帮助