我试图抓住这个网站https://propaccess.trueautomation.com/ClientDB/Property.aspx?prop_id=17471
我可以直接在我的网址栏中输入地址,然后我得到了我想要的结果,但是当我在python中搜索时,我只得到了#34;运行时错误的源代码"页。
我认为它可能与https有关,因为我可以像craigslist那样清晰地抓取页面。
我的代码如下,
import urllib
import re
domain = "https://propaccess.trueautomation.com/ClientDB/Property.aspx?
prop_id=17471"
htmlfile = urllib.urlopen(domain)
htmltext = htmlfile.read()
print htmltext
我是python的新手,但不是互联网。我假设我能够成功地将URL输入到浏览器中,我能够将相同的URL输入到python中。情况似乎并非如此,我也不知道为什么。
感谢。 麦克
更新:如果我在浏览器中浏览到所述网址,我从未习惯浏览此页面,我会收到"运行时错误"页。
答案 0 :(得分:0)
我无法访问您关联的网页。 看起来你正在经过身份验证的会话,当然,你的python代码不知道发生了什么。因此,它将返回“拒绝许可”或某种结果。
如果是这样,您可能希望在请求时传递会话cookie。
Requests
库有望满足您的需求。
(http://docs.python-requests.org/en/latest/user/advanced/#session-objects)
提示:当您进行裁剪工作时,请使用隐身模式查看网页。 页面外观与python环境完全相同。