我正在使用python制作一个网络爬虫,我有时会在网址中找到“:jsessionid = XXXX”。我已经创建了一个删除它的功能。我的函数接受一个url并从中删除模式“; jsession = XXXX ...”,其中“XXXX ...”是一个匹配任何东西直到问号的模式。我不确定算法是否正确,因为我没有得到jsessionid =“...”的语法。 无论如何,我的功能如下,你能告诉我它是否正确或我在哪里可以找到SESSION ID的语法?
def deleteJSessionid(link):
print("originalLink:",link)
p = re.compile(r';jsessionid=[^?]*',re.DOTALL | re.IGNORECASE)
p = p.search(link)
print("\n\n"+p.group()+"\n\n")
start = p.span()[0]
end = p.span()[1]
link = link[:start] + link[end:]
return link