这是SESSION ID的语法

时间:2014-08-22 09:05:12

标签: html-parsing jsessionid

我正在使用python制作一个网络爬虫,我有时会在网址中找到“:jsessionid = XXXX”。我已经创建了一个删除它的功能。我的函数接受一个url并从中删除模式“; jsession = XXXX ...”,其中“XXXX ...”是一个匹配任何东西直到问号的模式。我不确定算法是否正确,因为我没有得到jsessionid =“...”的语法。 无论如何,我的功能如下,你能告诉我它是否正确或我在哪里可以找到SESSION ID的语法?

def deleteJSessionid(link):
    print("originalLink:",link)
    p = re.compile(r';jsessionid=[^?]*',re.DOTALL | re.IGNORECASE)
    p = p.search(link)
    print("\n\n"+p.group()+"\n\n")
    start = p.span()[0]
    end = p.span()[1]
    link = link[:start] + link[end:]
    return link

0 个答案:

没有答案