介绍性标签: python | python-3.x | url | parameters | urlopen
使用过的语言: Python 3.x
使用过的模块: urlopen |的 urllib.request里
状态:尚未解决
我有网址:
http://mapy.cz/#mm=TTtP@x=133054720@y=135947904@z=13
它将我(在网络浏览器中)重定向到另一个网址:
https://mapy.cz/zakladni?x=14.412346408814274&y=50.08612581835152&z=13
我想从路径获取参数 x 和 y 。
x = 14.412346408814274
y = 50.08612581835152
(十进制度的地理坐标。)
当我使用时:
from urllib.request import urlopen
url = "http://mapy.cz/#mm=TTtP@x=133168128@y=133141248@z=13"
print(urlopen(url).url)
它将归还我:
https://mapy.cz/
当我使用时:
with urlopen(url) as conn:
newUrl = conn.geturl()
print (newUrl)
它将归还我:
https://mapy.cz/
当我使用时:
with urlopen(url) as conn:
print (conn.info())
它将归还我:
Server: nginx
Date: Sun, 03 Jun 2018 23:24:31 GMT
Content-Type: text/html; charset=UTF-8
Transfer-Encoding: chunked
Connection: close
Cache-Control: max-age=0
Expires: Sun, 03 Jun 2018 23:24:31 GMT
Strict-Transport-Security: max-age=31536000
当我使用时:
with urlopen(url) as conn:
print (conn.__dict__)
它将归还我:
{'fp': <_io.BufferedReader name=1404>, 'debuglevel': 0, '_method': 'GET', 'headers': <http.client.HTTPMessage object at 0x000000000DD48518>, 'msg': 'OK', 'version': 11, 'status': 200, 'reason': 'OK', 'chunked': True, 'chunk_left': None, 'length': None, 'will_close': True, 'code': 200, 'url': 'https://mapy.cz/'}
没有提到斜杠背后的参数/路径。 既不是原始网址也不是以下网址。
当我使用What is the quickest way to HTTP GET in Python?中的代码时:
import urllib.request
contents = urllib.request.urlopen("url").read()
它将归还我:
'raw html...'
我不想打开/下载html并从html中挖掘这些参数。
答案 0 :(得分:0)
如果你使用requests
(你应该),这里是你特定网址的解决方案:
import requests
URL = 'http://mapy.cz/#mm=TTtP@x=133054720@y=135947904@z=13'
response = requests.get(URL)
if response.history:
print("Request was redirected")
for resp in response.history:
print((resp.status_code, resp.url,))
# getting x, y and z
parts = resp.url.split('@')
x = parts[1].split('=')[1]
y = parts[2].split('=')[1]
z = parts[3].split('=')[1]
print("X {} Y {} Z {}".format(x, y, z))
print("Final destination:")
print((response.status_code, response.url,))
else:
print("Request was not redirected")