应用错误收集

时间：2016-12-10 18:34:21

标签： webserver web-crawler

我希望从我的网站创建公共信息。我的网站受到身份验证的保护，但有关用户的部分信息可以在网址http://example.com/public/user上共享。为10k +用户生成页面并使用robot.txt听起来非常密集。有没有办法让我可以抓取动态内容？

对于像facebook和linkedin这样的参考网站正在做同样的事情。但空间可能是真正的问题！特别是我正在寻找有助于抓取工具获取页面的Web服务器配置。

我已经阅读了相同主题的其他答案，在这种情况下我自己的网站，我希望允许抓取工具专门为公共部分编制索引

答案 0 :(得分：0)

动态页面或静态页面的流程相同：您需要指向要在其中某处索引的每个页面的链接。

选择的工具是sitemap.xml文件。确保根目录中有一个是最新的并指向所有相关记录。

如果它是动态网站，您可能会构建一个知道所有可用网址的脚本，并为您生成站点地图文件。

如果空间确实是一个约束，您可以动态生成站点地图，并输出它而不将其保存到您的网络空间。但是某种形式的缓存策略（在本地存储站点地图）可能是一个聪明的举动（例如，每小时运行一次并生成静态sitemap.xml的脚本）。

您可能还应该明确地向Google Webmasters program提交站点地图文件的URL，以确保文件尽快被编入索引。网站管理员控制台还会告诉您站点地图是否存在任何问题。