当我查看页面源时,我试图使用BeautifulSoup从网站中提取以下数据,但我无法使用汤找到它,所以我正在寻找一些指导。
当我查看来源时,页面会显示以下文字。
var = 'SynchronizerToken';
var = 'dd3a0c31e365c458d2d3e68e3c98f772bd2103eccf381';
我现在使用的代码是
SynchronizerToken = soup.find_all(“VAR SYNCHRONIZER_TOKEN_VALUE”)
建议表示赞赏,再次感谢!
答案 0 :(得分:1)
使用正则表达式捕获组:
var SYNCHRONIZER_TOKEN_VALUE = '(.+?)'
,您可以使用<MatchObject>.group(1)
import re
html = '''
var SYNCHRONIZER_TOKEN_NAME = 'SynchronizerToken';
var SYNCHRONIZER_TOKEN_VALUE = 'dd3a0c31e365c458d2d3e68e3c98f772bd2103eccf38163e10ce039c2b70a61a';
'''
token = None
matched = re.search(r"var SYNCHRONIZER_TOKEN_VALUE = '(.+?)'", html)
if matched:
token = matched.group(1)
# token => 'dd3a0c31e365c458d2d3e68e3c98f772bd2103eccf38163e10ce039c2b70a61a'
答案 1 :(得分:0)