对于项目,我需要知道HTML文件中特定标记的频率。
首先,我解析了HTML文件。
然后我使用.select()
获取了所有<time>
标记。
在Chrome的开发者工具中,我将该标记计算了25次。
但Python数量为10。
import requests
from bs4 import BeautifulSoup
r=requests.get(URL)
doc=r.text
soup=BeautifulSoup(doc,'html.parser')
length=len(soup.select("time"))
print(length) #OUTPUT is 10 instead of 25
我发现该文档包含<time>
10次。
但它不应该像我的浏览器那样多吗?
我需要所有25个。是否有工作可以获得所有25个?
我该怎么办?
答案 0 :(得分:-1)
尝试使用soup.find_all()方法 - 这通常对我有用