Question

我正在尝试阅读内容管理系统（CMS）托管的网页的页面源代码。

要通过浏览器查看网页，请键入URL，输入我的用户名和密码（以对域（内部网）进行身份验证）。当我右键单击网页>查看源代码时，我将所有页面内容包含在标签中。该页面包含许多h1，h2，p和表标签。

我想运行一个脚本来获取页面源代码。当我执行以下代码时，我没有获得完整的页面源代码（在标记内）。

import urllib
import urllib2
import webbrowser

testlink = 'mylinkwithinCMS'

auth_handler = urllib2.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',uri='mydomain', user='myusername', passwd='mypassword')
opener = urllib2.build_opener(auth_handler)
urllib2.install_opener(opener)
response = urllib2.urlopen(testlink)

with open('output.txt', 'w') as f:
    f.write(response.read())

我只有一行这样的代码：

<body><script type="text/javascript">window.NREUM||(NREUM={});NREUM.info={"beacon":"bam.nr-data.net","licenseKey":"0f4bf752fg”,”applicationID":"135707588”,”transactionName":"ZwZaYBQFXktSVhBZDl5MbUYPS1NXQVBAgFIFkNdFA==","queueTime":0,"applicationTime":270,"atts":"S0FZFlwfTUU=","errorBeacon":"bam.nr-data.net","agent":""}</script></body>

如何使用urllib2阅读页面源代码？

0 个答案: