如何为动态页面启用抓取?

时间:2016-12-10 18:34:21

标签: webserver web-crawler

我希望从我的网站创建公共信息。我的网站受到身份验证的保护,但有关用户的部分信息可以在网址http://example.com/public/user上共享。为10k +用户生成页面并使用robot.txt听起来非常密集。有没有办法让我可以抓取动态内容?

对于像facebook和linkedin这样的参考网站正在做同样的事情。但空间可能是真正的问题! 特别是我正在寻找有助于抓取工具获取页面的Web服务器配置。

我已经阅读了相同主题的其他答案,在这种情况下我自己的网站,我希望允许抓取工具专门为公共部分编制索引

1 个答案:

答案 0 :(得分:0)

动态页面或静态页面的流程相同:您需要指向要在其中某处索引的每个页面的链接。

选择的工具是sitemap.xml文件。确保根目录中有一个是最新的并指向所有相关记录。

如果它是动态网站,您可能会构建一个知道所有可用网址的脚本,并为您生成站点地图文件。

如果空间确实是一个约束,您可以动态生成站点地图,并输出它而不将其保存到您的网络空间。但是某种形式的缓存策略(在本地存储站点地图)可能是一个聪明的举动(例如,每小时运行一次并生成静态sitemap.xml的脚本)。

您可能还应该明确地向Google Webmasters program提交站点地图文件的URL,以确保文件尽快被编入索引。网站管理员控制台还会告诉您站点地图是否存在任何问题。