我是一家为航班预订公司工作的SEO。我们正在尝试为我们的网站安装XML站点地图。我曾要求我公司的开发团队安装一个Perl脚本,该脚本将有助于为我们庞大的站点生成XML站点地图(超过150k页)。
我们使用了Google Perl Sitemap Generator,因为出于某些原因我们只能使用Perl。输出文件有很多垃圾,因为它主要通过静态页面和服务器文件夹中的其他内容进行爬行(它基本上不遵循主页和网站中的URL,而是抓取服务器上的每个文件)。我不确定术语是否正确,但我认为你会明白我的观点。
上面的链接中提到了配置选项,但是我们无法确定在没有不必要的URL的情况下使用哪些参数来获取理想的XML站点地图。
任何人都可以请求帮助Perl脚本或如何配置它。
答案 0 :(得分:0)
使用'wget'(镜像选项)制作网站的副本,并从中构建一个站点地图。
答案 1 :(得分:0)
看这里,它有代码: http://www.isrcomputing.com/knowledge-base/linux-tips/240-how-to-create-google-sitemap- 使用-perl.html
答案 2 :(得分:0)
也许我天真,但你不能从根开始做所有链接的BFS'http :: get',解析每个a href
?
Perl非常支持。