如何使用urllib2阅读页面源代码?

时间:2019-06-27 09:26:54

标签: python python-2.7

我正在尝试阅读内容管理系统(CMS)托管的网页的页面源代码。

要通过浏览器查看网页,请键入URL,输入我的用户名和密码(以对域(内部网)进行身份验证)。当我右键单击网页>查看源代码时,我将所有页面内容包含在标签中。该页面包含许多h1,h2,p和表标签。

我想运行一个脚本来获取页面源代码。当我执行以下代码时,我没有获得完整的页面源代码(在标记内)。

import urllib
import urllib2
import webbrowser

testlink = 'mylinkwithinCMS'

auth_handler = urllib2.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',uri='mydomain', user='myusername', passwd='mypassword')
opener = urllib2.build_opener(auth_handler)
urllib2.install_opener(opener)
response = urllib2.urlopen(testlink)

with open('output.txt', 'w') as f:
    f.write(response.read())

我只有一行这样的代码:

<body><script type="text/javascript">window.NREUM||(NREUM={});NREUM.info={"beacon":"bam.nr-data.net","licenseKey":"0f4bf752fg”,”applicationID":"135707588”,”transactionName":"ZwZaYBQFXktSVhBZDl5MbUYPS1NXQVBAgFIFkNdFA==","queueTime":0,"applicationTime":270,"atts":"S0FZFlwfTUU=","errorBeacon":"bam.nr-data.net","agent":""}</script></body>

0 个答案:

没有答案