我正在尝试通过搜索p0662110597086(他的ID)使用BeautifulSoup从此页面中提取URL。我用BeautifulSoup尝试了几种不同的方法,包括一个不同的html解析器,但这些方法都没有成功。
<a href="#media" class="movie" hpp="act_video">video</a> <ul>
<li>identity:<span itemprop="productID">p0662110597086</span></li>
<li>soll numbers:75</li>
<li>solds:97</li>
</ul>
答案 0 :(得分:0)
import bs4
html = ''' <a href="#media" class="movie" hpp="act_video">video</a> <ul>
<li>identity:<span itemprop="productID">p0662110597086</span></li>
<li>soll numbers:75</li>
<li>solds:97</li>
</ul>'''
soup = bs4.BeautifulSoup(html, 'lxml')
id_tag = soup.find('span', string='p0662110597086')
a_tag = id_tag.find_previous('a', class_='movie')
出:
id_tag: <span itemprop="productID">p0662110597086</span>
a_tag: <a class="movie" hpp="act_video" href="#media">video</a>
签名:
find_all_previous(name, attrs, string, limit, **kwargs)
签名:
find_previous(name, attrs, string, **kwargs)
这些方法使用
.previous_elements
迭代标记和 在文档中出现的字符串。find_all_previous()
method返回所有匹配项,find_previous()
仅返回第一个匹配项 匹配