遍历URL列表并刮除tspan元素

时间:2018-12-14 22:41:24

标签: python python-2.7

我想知道是否有一种方法可以遍历URL列表,然后从每个URL导入名为“ tspan”的HTML元素。

我该怎么做?非常感谢。

1 个答案:

答案 0 :(得分:1)

如果您已经下载了页面的BeautifulSoup源,则可以使用html。否则,请使用urllib.request.urlopen获取页面的来源。

from bs4 import BeautifulSoup as bs

html = """
<div>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" </tspan> 
    </text> 
    </g>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" 2</tspan> 
    </text> 
    </g>
</div>"""

soup = bs(html)

tspans = soup.find_all("tspan")
tspans
[<tspan dy="1em" x="1"></tspan>,
 <tspan dy="1em" x="1"></tspan>]

texts = [tspan.text for tspan in tspans]
texts