我不仅想要一个页面的内容,还想要与我最终文档中每个标题相关联的格式,而不仅仅是文本而不突出显示标题。例如格式化所有标题。
到目前为止,我只提取了我的div conatiner的文字,其中包含所有标题和段落:
soup = BeautifulSoup(page.content, 'html.parser')
t=soup.find_all('div',class_=['x'])
df=[]
for i in t:
for head in i:
df.append(i.get_text())
我现在需要的是,文本是从标题中提取的,然后是随后的段落,这样我就可以格式化标题。所以我会遍历所有标题,提取标题,然后是段落文本......