我刚开始使用python进行网页抓取,并且遇到了问题。
我正在https://upplysing.se
的各个页面上抓取,并且需要从分页按钮的href中擦除某些部分。
href的结构如下:
https://upplysning.se/person/?x=1204&where=Sveav%e4gen+Stockholm&m=1&sl=detail&page=2
我需要从网址中删除&sl=detail
部分,但不完全了解该怎么做。谁能指出我正确的方向?
答案 0 :(得分:0)
您可以使用此
<select class="form-control select required sku-suffix-component" name="product[color_id]" id="product_color_id"> (...)
答案 1 :(得分:0)
您可以最大程度地使用urllib并将整个url分解为多个部分,删除sl
部分,然后重新进行整个组合:
def remove_url_query_arg(urlstring, argname):
url = urlparse(urlstring)
query = url.query
args = parse_qsl(query)
clean_args = [(k, v) for k, v in args if k != argname]
clean_query = urlencode(clean_args)
clean_url = urllib.parse.ParseResult(
scheme=url.scheme,
netloc=url.netloc,
path=url.path,
params=url.params,
fragment=url.fragment,
query=clean_query)
return urlunparse(clean_url)
这留下了在东西所属的URL字符串中提取和插入内容的知识。