一位朋友问过我,我无法回答。
他问:我正在制作这个网站,你可以存档你的网站......
它的工作方式是这样的,你进入你的网站,例如,something.com然后我们的网站抓取该网站上的内容,如图像,以及所有这些并上传到我们的网站。然后人们可以在oursite.com/something.com上查看该网站的精确副本,即使阻止something.com的服务器已关闭。
他怎么能这样做? (php?)以及会有什么要求?
答案 0 :(得分:1)
听起来你需要创建一个webcrawler。 Web爬虫可以用任何语言编写,但我建议使用C ++(使用cURL),Java(使用URLConnection)或Python(w / urrlib2)。你可能还可以使用curl或wget命令和BASH快速破解一些东西,尽管这可能不是最好的长期解决方案。此外,请不要忘记,只要您抓取某个人的网站,就应该下载,解析并尊重“robots.txt”文件。
答案 1 :(得分:0)
使用wget。无论是linux版本还是gnuwin32软件包的windows版本。 get it here
答案 2 :(得分:0)