android - 如果在robots.txt中不允许使用API，则会进行Google抓取或索引 - Thinbug

如果在robots.txt中不允许使用API，则会进行Google抓取或索引

时间：2016-10-18 09:48:37

标签： android api reactjs sitemap google-search

我希望googlebot将动态添加到我的站点地图的网址编入索引。我添加的网址是用于个人资料（example.com/username），博客等...我使用带有react-router的服务器端呈现，而某些组件会对api进行api.example.com/...调用。阅读有关抓取和robots.txt的文档后。我理解googlebot在抓取页面时向链接发出请求。因此，服务器从googlebot.com获取请求，googlebot也与robots.txt进行交互。

好吧，我不希望Google抓取我的api或链接到它的人。这会使服务器过载。 Instagram完全相同https://instagram.com/robots.txt

User-agent: *
Disallow: /api/

由于我的理解，我有点困惑谷歌抓取公共配置文件的页面（谷歌和＃34;凯利斯莱特Instagram＆＃34;）。

另外，https://developer.android.com/training/app-indexing/enabling-app-indexing.html#robots（最后一段 - 页面底部）说我需要允许Google向/api/发出请求。

问题

由于/api/被屏蔽，google如何抓取Instagram页面？是否等待来自服务器的响应并忽略robots.txt，因为它是来自另一个页面的间接请求？
网络抓取是否与应用抓取不同？我是否需要启用/api/以使我未来的Android应用程序可抓取？
我还注意到Instagram在Sitemap: ...中没有robots.txt字段。他们是否使用google ping等搜索引擎的apis提交站点地图？

0 个答案:

没有答案