我正在为我的网站创建站点地图。我这样做是因为我有大量的页面只能通过用户通常的搜索表单来访问。
我创建了一种自动方法,用于将链接拉出数据库并将其编译为站点地图。但是,对于所有可定期访问且不在数据库中的页面,我必须手动完成并将这些页面添加到站点地图中。
我觉得常规页面是普通抓取工具无法找到的页面,因此在这些页面中手动添加麻烦似乎很麻烦,然后确保站点地图能够及时更新它们。
将这些内容删除,如果它们已经被编入索引,并且我的站点地图只包含我的动态页面,这是不是很糟糕吗?
答案 0 :(得分:3)
Google会抓取它发现的任何网址(如robots.txt所允许的),即使它们不在网站地图中。只要您的静态页面都可以从站点地图中的其他页面访问,就可以将它们排除在外。但是,站点地图XML的其他功能可能会激励您在站点地图中包含静态URL(例如修改日期和优先级)。
如果您愿意编写脚本来自动生成数据库条目的站点地图,那么请更进一步,让您的脚本也为静态页面生成条目。这可以像搜索webroot并查找* .html文件一样简单。或者,如果您使用的是框架,请迭代框架的静态路由。
答案 1 :(得分:-3)
是的,我认为将它们排除在外并不好。我认为寻找一种方法可以让没有站点地图的爬虫找到您的搜索页面也是可取的。例如,您可以添加某种高级搜索页面,用户可以在表单中选择搜索词。爬行者也可以填写这些表格。