从<script> - BeautifulSoup python中提取字符串

时间:2018-01-02 06:16:12

标签: python regex beautifulsoup

我正在尝试创建一个python脚本来从webmail中提取一些信息。我想遵循重定向。

&#xA;&#xA;

我的代码:

&#xA;&#xA;
  br1 = mechanize.Browser()& #xA; br1.set_handle_robots(False)&#xA; br1.set_cookiejar(cj)&#xA; br1.open(“LOGIN URL”)&#xA; br1.select_form(nr = 0)&#xA; br1。 form ['username'] = mail_site&#xA; br1.form ['password'] = pw_site&#xA; res1 = br1.submit()&#xA; html = res1.read()&#xA;&#xA; print html&#xA;  
&#xA;&#xA;

结果不是我所期望的。 &#xA;它只包含一个重定向脚本。&#xA;我已经看到我必须从这个脚本中提取信息以遵循这个重定向。&#xA;所以,在我的情况下,我要提取jsessionid到脚本。

&#xA;&#xA;

脚本是:

&#xA;&#xA;
 &lt; script&gt;&#xA; function redir(){&#xA; window.self.location.replace('/ webmail / en_EN / continue.html; jsessionid = 1D5QS4DA6C148DC4C14QS4CS5.1FDS5F4DSV1A64DA5DA?MESSAGE = NO_COOKIE&amp; DT = 1&amp; URL_VALID = welcome.html');& #xA;返回true;&#xA;}&#xA;&lt; / script&gt;&#xA;  
&#xA;&#xA;

如果我没错,我要构建一个正则表达式。&#xA;我尝试了很多但没有结果。

&#xA;&#xA;

任何人都有想法?

&#xA;

1 个答案:

答案 0 :(得分:0)

import re
get_jsession = re.search(r'jsessionid=([A-Za-z0-9.]+)',script_)
print(get_jsession.group(1))
>>> '1D5QS4DA6C148DC4C14QS4CS5.1FDS5F4DSV1A64DA5DA'