无法在Python 3中正确读取HTML数据

时间:2017-04-13 10:37:14

标签: python html python-requests

我试图在Python 3中阅读以下页面的HTML数据:

http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx

我正是这样做的:

url=str(input('\n Paste URL here: '))    
url2=requests.get(url)
html=url2.text
print(html)

但它返回错误页面的内容。

让我补充一点,您可能会在网络浏览器中遇到相同的错误页面,但为了避免这种情况,首先打开此地址将解决它:

http://dl.nlai.ir/ui/forms/Index.aspx

您建议正确读取数据的内容是什么?我希望获取页面内容以从源页面中提取base64编码的字符串。

1 个答案:

答案 0 :(得分:1)

除非您访问" http://dl.nlai.ir/ui/forms/Index.aspx"第一, 访问" http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx"会得到错误的HTML。所以我猜你需要session获取url,就像这样

s = requests.Session()
url1 = 'http://dl.nlai.ir/ui/forms/Index.aspx'
url = 'http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx'
s.get(url1)
url2 = s.get(url)
html = url2.text
print(html)