Question

我想知道是否有一种方法可以遍历URL列表，然后从每个URL导入名为“ tspan”的HTML元素。

我该怎么做？非常感谢。

Answer 1

如果您已经下载了页面的BeautifulSoup源，则可以使用html。否则，请使用urllib.request.urlopen获取页面的来源。

from bs4 import BeautifulSoup as bs

html = """
<div>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" </tspan> 
    </text> 
    </g>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" 2</tspan> 
    </text> 
    </g>
</div>"""

soup = bs(html)

tspans = soup.find_all("tspan")
tspans
[<tspan dy="1em" x="1"></tspan>,
 <tspan dy="1em" x="1"></tspan>]

texts = [tspan.text for tspan in tspans]
texts

遍历URL列表并刮除tspan元素

1 个答案: