如何使用python废弃任何网站的“下载页面”

时间:2012-11-08 17:43:13

标签: python web-scraping beautifulsoup

我想要使用python的任何网站的剪贴簿下载页面来提取有关版本及其下载链接的信息。 我正在学习python,并希望用beautifulsoup来做,但这些页面非常复杂,看起来很难找到这些东西。 提前致谢

1 个答案:

答案 0 :(得分:3)

欢迎使用Stack Overflow! - 我猜你的意思是“刮”,因为“废料”的意思是“扔掉”。

首先,您必须使用urllib2来创建要抓取的页面的文件对象。阅读this以了解具体方法。

然后,您必须通过检查页面的html内容来确定您想要从页面本身获取哪些信息。

最后,您将文件对象传递给美丽汤的解析器,并导航HTML以返回您想要获取的信息。

为了将来参考,BeautifulSoup有漂亮的文档。如果你想要擅长编程,你必须学习如何阅读文档 - 它实际上只会变得更难。