我想要使用python的任何网站的剪贴簿下载页面来提取有关版本及其下载链接的信息。 我正在学习python,并希望用beautifulsoup来做,但这些页面非常复杂,看起来很难找到这些东西。 提前致谢
答案 0 :(得分:3)
欢迎使用Stack Overflow! - 我猜你的意思是“刮”,因为“废料”的意思是“扔掉”。
首先,您必须使用urllib2来创建要抓取的页面的文件对象。阅读this以了解具体方法。
然后,您必须通过检查页面的html内容来确定您想要从页面本身获取哪些信息。
最后,您将文件对象传递给美丽汤的解析器,并导航HTML以返回您想要获取的信息。
为了将来参考,BeautifulSoup有漂亮的文档。如果你想要擅长编程,你必须学习如何阅读文档 - 它实际上只会变得更难。