应用错误收集

如何使用python废弃任何网站的“下载页面”

时间：2012-11-08 17:43:13

标签： python web-scraping beautifulsoup

我想要使用python的任何网站的剪贴簿下载页面来提取有关版本及其下载链接的信息。我正在学习python，并希望用beautifulsoup来做，但这些页面非常复杂，看起来很难找到这些东西。提前致谢

1 个答案:

答案 0 :(得分：3)

欢迎使用Stack Overflow！ - 我猜你的意思是“刮”，因为“废料”的意思是“扔掉”。

首先，您必须使用urllib2来创建要抓取的页面的文件对象。阅读this以了解具体方法。

然后，您必须通过检查页面的html内容来确定您想要从页面本身获取哪些信息。

最后，您将文件对象传递给美丽汤的解析器，并导航HTML以返回您想要获取的信息。

为了将来参考，BeautifulSoup有漂亮的文档。如果你想要擅长编程，你必须学习如何阅读文档 - 它实际上只会变得更难。