我正在尝试阅读内容管理系统(CMS)托管的网页的页面源代码。
要通过浏览器查看网页,请键入URL,输入我的用户名和密码(以对域(内部网)进行身份验证)。当我右键单击网页>查看源代码时,我将所有页面内容包含在标签中。该页面包含许多h1,h2,p和表标签。
我想运行一个脚本来获取页面源代码。当我执行以下代码时,我没有获得完整的页面源代码(在标记内)。
import urllib
import urllib2
import webbrowser
testlink = 'mylinkwithinCMS'
auth_handler = urllib2.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',uri='mydomain', user='myusername', passwd='mypassword')
opener = urllib2.build_opener(auth_handler)
urllib2.install_opener(opener)
response = urllib2.urlopen(testlink)
with open('output.txt', 'w') as f:
f.write(response.read())
我只有一行这样的代码:
<body><script type="text/javascript">window.NREUM||(NREUM={});NREUM.info={"beacon":"bam.nr-data.net","licenseKey":"0f4bf752fg”,”applicationID":"135707588”,”transactionName":"ZwZaYBQFXktSVhBZDl5MbUYPS1NXQVBAgFIFkNdFA==","queueTime":0,"applicationTime":270,"atts":"S0FZFlwfTUU=","errorBeacon":"bam.nr-data.net","agent":""}</script></body>