我正在尝试使用BS4从标记中抓取一些文本,但是每次运行脚本时,我都会不断收到TypeError。
我尝试使用几个不同的解析器,但是它们都返回相同的TypeError。
我的python代码是:
s = requests.Session()
r = (s.get(url, headers=headers))
soup = BeautifulSoup(r.content, 'html5lib')
profile = soup.find('script', attrs={'name': 'window.profile'})['value']
我要抓取的HTML是:
<script>
// Profile helper.
window.profile = 'PROFILEIDHERE';
</script>
我的代码的预期结果是将'window.profile'的值分配给变量'profile',但是每次运行脚本时都会遇到TypeError。
答案 0 :(得分:0)
您可以使用get_text()获取标签的文本值:
allScripts = soup.find_all("script")
for script in allScripts:
scriptText = script.get_text()
scriptTextValue = scriptText.split("'")[1]
print(scriptTextValue)