从URL删除某些Ajax调用

时间:2018-12-17 09:10:07

标签: python regex web-scraping

我刚开始使用python进行网页抓取,并且遇到了问题。

我正在https://upplysing.se的各个页面上抓取,并且需要从分页按钮的href中擦除某些部分。 href的结构如下:

https://upplysning.se/person/?x=1204&where=Sveav%e4gen+Stockholm&m=1&sl=detail&page=2

我需要从网址中删除&sl=detail部分,但不完全了解该怎么做。谁能指出我正确的方向?

2 个答案:

答案 0 :(得分:0)

您可以使用此

<select class="form-control select required sku-suffix-component" name="product[color_id]" id="product_color_id"> (...)

答案 1 :(得分:0)

您可以最大程度地使用urllib并将整个url分解为多个部分,删除sl部分,然后重新进行整个组合:

def remove_url_query_arg(urlstring, argname):

  url = urlparse(urlstring)
  query = url.query
  args = parse_qsl(query)

  clean_args = [(k, v) for k, v in args if k != argname]

  clean_query = urlencode(clean_args)
  clean_url = urllib.parse.ParseResult(
    scheme=url.scheme,
    netloc=url.netloc,
    path=url.path,
    params=url.params,
    fragment=url.fragment,
    query=clean_query)

  return urlunparse(clean_url)

这留下了在东西所属的URL字符串中提取和插入内容的知识。