应用错误收集

如何从其他网站“抓取”内容

时间：2010-08-01 13:08:47

标签： web-crawler archive

一位朋友问过我，我无法回答。

他问：我正在制作这个网站，你可以存档你的网站......

它的工作方式是这样的，你进入你的网站，例如，something.com然后我们的网站抓取该网站上的内容，如图像，以及所有这些并上传到我们的网站。然后人们可以在oursite.com/something.com上查看该网站的精确副本，即使阻止something.com的服务器已关闭。

他怎么能这样做？（php？）以及会有什么要求？

3 个答案:

答案 0 :(得分：1)

听起来你需要创建一个webcrawler。 Web爬虫可以用任何语言编写，但我建议使用C ++（使用cURL），Java（使用URLConnection）或Python（w / urrlib2）。你可能还可以使用curl或wget命令和BASH快速破解一些东西，尽管这可能不是最好的长期解决方案。此外，请不要忘记，只要您抓取某个人的网站，就应该下载，解析并尊重“robots.txt”文件。

答案 1 :(得分：0)

使用wget。无论是linux版本还是gnuwin32软件包的windows版本。 get it here

答案 2 :(得分：0)

使用curl获取html。
现在将所有图片，css，javascript更改为绝对网址（如果它们是相对网址）。（这有点不道德）。您可以从您的网站获取所有这些资产并托管。
尊重所有网站的“robots.txt”。 read here。