我想提取"提交它的数量"在网页中的标记之间。 这是我的代码。
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://www.crummy.com/software/BeautifulSoup/")
bsObj = BeautifulSoup(html, "html.parser")
nameList = bsObj.findAll(text="file it")
print(len(nameList))
如果"提交它"或"下载",它与结果1配合得很好。 在"名人堂"的情况下,它与结果2一起使用。
但是对于"讨论组",它应该是2,但它不起作用,结果是0。
为什么我在"讨论组"中得到结果0? case或"获取源代码"情况?
答案 0 :(得分:0)
import re
nameList = bsObj.findAll(text=re.compile(r"the\s+discussion\sgroup"))
在正则表达式中使用\s+
来匹配包括\n