如果我必须为没有站点地图的网站创建内容库存,而我无权修改网站,但该网站非常大。如何从该网站构建站点地图而无需完全浏览? 我尝试使用Visio的站点地图构建器,但它失败了很多时间。 比方说,例如:我想创建Stackoverflow的站点地图。 你们知道一个软件来构建它吗?
答案 0 :(得分:1)
您必须完全浏览它才能在每个网页中搜索网站中的唯一链接,然后将它们放入索引中。
对于您在网站中找到的每个唯一链接,您还需要访问该网页并搜索更多独特链接。
您可以使用HtmlAgilityPack等工具轻松抓取网址并从中提取链接。
我写过一篇文章,涉及问题的提取链接部分:
答案 1 :(得分:0)
我会在数据库中注册所有页面,然后只在页面上输出它们(php - sql)。也许索引软件可以帮助你!首先,只需确保您的所有网页都已关联,然后将其提交给谷歌!
答案 2 :(得分:0)
直接用Google搜索并找到了这个。 http://www.xml-sitemaps.com/ 看起来很有意思!
答案 3 :(得分:0)
有一个非常大的XML Sitemaps生成器集合(假设您要生成的内容 - 而不是HTML站点地图页面或其他内容?)http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators
通常,对于任何较大的站点,最佳解决方案实际上是直接从源中获取信息,例如从为站点供电的数据库中获取信息。通过这样做,您可以获得最准确和最新的Sitemap文件。如果您必须抓取网站以获取Sitemap文件的网址,则较大的网站将花费相当长的时间,并且它将在此期间加载服务器(就像有人访问您网站中的所有网页一样)。不时抓取网站以确定是否存在可抓取性问题(例如无尽的日历,通过表单隐藏的内容等)是一个好主意,但如果可以,通常最好直接获取Sitemap文件的URL。