标签: python html
我需要根据网页标签对其进行细分。例如,如果网页右上角的某些文本属于标记,我想将其提取为一个片段。如果下面有带有标签的表格,我想将其提取为不同的细分。另外,如果在不同标签下有5个段落,我想将其提取为5个不同的细分。
我可以使用soup.findAll提取特定标签中的文本。这种方法仅有助于将其视为单个细分。
soup.findAll
有没有办法在单个for循环中基于标签对文本进行分段而又不丢失文本顺序?