python打开网页并获取源代码

时间:2013-03-05 14:43:17

标签: python pyqt

我们开发了一个基于Web的应用程序,用户登录等,我们开发了一个python应用程序,必须在此页面上获取一些数据。

有没有办法沟通python和系统默认浏览器? 我们的主要目标是使用系统浏览器打开一个网页,并从中获取HTML源代码?我们尝试使用python webbrowser,成功打开网页,但无法获取源代码,并尝试使用urllib2,在这种情况下,我认为我们必须使用系统默认浏览器的cookie等,我不想这样,因为安全性。

3 个答案:

答案 0 :(得分:1)

https://pypi.python.org/pypi/selenium

您可以尝试使用Selenium,他已经完成了测试,但没有任何东西阻止您将其用于其他目的

答案 1 :(得分:0)

如果您的网站可以在没有Javascript的情况下导航,那么您可以尝试Mechanizezope.testbrowser。这些工具提供了比urllib2更高级别的API,让您可以按照页面上的链接进行操作并填写HTML表单。

例如,这可以用于导航使用基于cookie的身份验证的网站以及用于登录的HTML表单。

答案 2 :(得分:0)

看看nltk模块---他们有一些用于查看网页和获取文本的工具。还有BeautifulSoup,这有点复杂。我目前正在使用两个网页来学习算法 - 它们是相当广泛使用的模块,所以这意味着你可以在这里找到很多提示:)