我需要从使用活动服务器页面的专有CMS迁移我们的网站。是否有工具或技术可以帮助从现有网站下载资源?我想我正在寻找一种可以爬行并刮擦整个网站的工具。
另一个挑战是该网站使用SSL并受基于表单的身份验证保护。我有必要的凭据,我可以获取验证会话的cookie,但我不知道从哪里开始,如果现有工具可以帮助我,我不想重新发明轮子。
编辑 - 我正在使用Windows操作系统
答案 0 :(得分:3)
wget可能是您使用
的好工具wget --load-cookies cookies.txt --mirror --page-requisites http://example.com/
添加--convert-links如果您希望更适合本地存档,而不是您可以在某处重新上传的内容。
可以从sourceforge.net上的gnuwin32项目获得Windows版本的wget http://gnuwin32.sourceforge.net/packages/wget.htm
答案 1 :(得分:1)
wget --http-user:username --http-pass:password -r http://yoursite.com
这将获取整个站点(递归)。如果你在Windows上,你会想要安装cygwin或类似的东西来使用它,虽然我相信你可以下载wget的windows版本/克隆。
答案 2 :(得分:1)
如果你了解Perl,你可能会喜欢WWW::Mechanize。取决于您尝试实现的自动化水平 - wget
在某些情况下可能会很好。
答案 3 :(得分:1)
你有很多选择。需要考虑的一件事是身份验证的复杂程度。除了wget之外,您还可以查看curl(一种非常强大的选项,包含许多不同语言的绑定),Python的urllib,Apache HttpClient,WWW-Mechanize等。