Question

我假设你已经看过这个问题的电影“社交网络”。

我想知道是否可以在他开始使用Facemash.com时从Zuckerberg网站下载图片。如果可能的话，你会怎么做这样的事情？

如果你有这方面的知识，请随时提供技术支持;这是我一段时间以来一直对此感兴趣的事情，我很想知道。

谢谢！

（非常好;从网站目录下载图像和文件，而不完全知道所述文件的名称）

Answer 1

从网络抓取数据的一般技术称为“scraping”。要下载图像，您需要获取页面的来源，在其中搜索任何<img>个标记，并对src属性指向的地址发出额外请求。然后，您将在页面中构建一个附加链接列表，以便遵循并重复该过程。

例如，在此页面上只有两个标签。其中一个是你的avator，它看起来像这样：

<img src="http://i.stack.imgur.com/mWxgi.png?s=32&amp;g=1" alt="">

从Linux shell我可以通过执行以下操作获取wget图像：

wget "http://i.stack.imgur.com/mWxgi.png?s=32&amp;g=1"

您如何抓取页面来源各不相同。在Python中，我可能会使用requests和beautiful soup库来获取和处理页面源。如果页面主要是通过Javascript生成的，我可能必须使用Selenium Webdriver来实际驱动真正的浏览器会话。