美丽的汤 - 随后提取所有标题,段落

时间:2018-05-07 14:41:00

标签: python web-scraping beautifulsoup

我不仅想要一个页面的内容,还想要与我最终文档中每个标题相关联的格式,而不仅仅是文本而不突出显示标题。例如格式化所有标题。

到目前为止,我只提取了我的div conatiner的文字,其中包含所有标题和段落:

soup = BeautifulSoup(page.content, 'html.parser')


t=soup.find_all('div',class_=['x'])

    df=[]
    for i in t:
        for head in i:
            df.append(i.get_text())

我现在需要的是,文本是从标题中提取的,然后是随后的段落,这样我就可以格式化标题。所以我会遍历所有标题,提取标题,然后是段落文本......

0 个答案:

没有答案