通过提供包含多个URL的文件来检索网页源

时间:2013-09-25 14:38:36

标签: python url urllib

我想通过提供包含其网址列表的文件来下载网页源代码。 例如,我有一个文件,其中包含以下网址

http://www.adobe.com/support/security/bulletins/apsb09-19.html
http://www.adobe.com/support/security/bulletins/apsb09-20.html                                                                                                

我可以使用urllib来做,因为我想使用python模块而不是unix命令(比如wget)?

我想阅读此文件并将每个网址作为urlopen或urlretrieve的输入,有人可以告诉我该怎么做吗?

1 个答案:

答案 0 :(得分:1)

尝试尽可能地解决问题。你有一个文本文件,每个网址都列在自己的行上。您知道Python可以逐行阅读,感谢open(),并且您可能熟悉urllibrequests,具体取决于您的偏好。

所以你需要做的就是:

  1. Open the file

  2. Read line by line

  3. 将该行用作URL字符串

  4. 使用urllibrequests

  5. 向网址发送请求
  6. 捕获输出并解析/保存

  7. 你已经完成了!