我想知道是否有一种方法可以遍历URL列表,然后从每个URL导入名为“ tspan”的HTML元素。
我该怎么做?非常感谢。
答案 0 :(得分:1)
如果您已经下载了页面的BeautifulSoup
源,则可以使用html
。否则,请使用urllib.request.urlopen
获取页面的来源。
from bs4 import BeautifulSoup as bs
html = """
<div>
<g transform="translate(-128.8249969482422,-7.941666603088379)">
<text text-anchor="left" style="; fill:#000;">
<tspan dy="1em" </tspan>
</text>
</g>
<g transform="translate(-128.8249969482422,-7.941666603088379)">
<text text-anchor="left" style="; fill:#000;">
<tspan dy="1em" 2</tspan>
</text>
</g>
</div>"""
soup = bs(html)
tspans = soup.find_all("tspan")
tspans
[<tspan dy="1em" x="1"></tspan>,
<tspan dy="1em" x="1"></tspan>]
texts = [tspan.text for tspan in tspans]
texts