我希望googlebot将动态添加到我的站点地图的网址编入索引。我添加的网址是用于个人资料(example.com/username
),博客等...我使用带有react-router的服务器端呈现,而某些组件会对api
进行api.example.com/...
调用。阅读有关抓取和robots.txt
的文档后。我理解googlebot在抓取页面时向链接发出请求。因此,服务器从googlebot.com
获取请求,googlebot
也与robots.txt
进行交互。
好吧,我不希望Google抓取我的api或链接到它的人。这会使服务器过载。 Instagram完全相同https://instagram.com/robots.txt
User-agent: *
Disallow: /api/
由于我的理解,我有点困惑谷歌抓取公共配置文件的页面(谷歌和#34;凯利斯莱特Instagram")。
另外,https://developer.android.com/training/app-indexing/enabling-app-indexing.html#robots(最后一段 - 页面底部)说我需要允许Google向/api/
发出请求。
问题
由于/api/
被屏蔽,google如何抓取Instagram页面?是否等待来自服务器的响应并忽略robots.txt
,因为它是来自另一个页面的间接请求?
网络抓取是否与应用抓取不同?我是否需要启用/api/
以使我未来的Android应用程序可抓取?
我还注意到Instagram在Sitemap: ...
中没有robots.txt
字段。他们是否使用google ping
等搜索引擎的apis提交站点地图?