使用beautifulsoup查找productID

时间:2016-12-18 20:07:21

标签: beautifulsoup

我正在尝试通过搜索p0662110597086(他的ID)使用BeautifulSoup从此页面中提取URL。我用BeautifulSoup尝试了几种不同的方法,包括一个不同的html解析器,但这些方法都没有成功。

            <a href="#media" class="movie" hpp="act_video">video</a>            <ul>
          <li>identity:<span itemprop="productID">p0662110597086</span></li>
        <li>soll numbers:75</li>
        <li>solds:97</li>
        </ul>

1 个答案:

答案 0 :(得分:0)

import bs4
html = '''            <a href="#media" class="movie" hpp="act_video">video</a>            <ul>
          <li>identity:<span itemprop="productID">p0662110597086</span></li>
        <li>soll numbers:75</li>
        <li>solds:97</li>
        </ul>'''
soup = bs4.BeautifulSoup(html, 'lxml')

id_tag = soup.find('span', string='p0662110597086')
a_tag = id_tag.find_previous('a', class_='movie')

出:

id_tag:  <span itemprop="productID">p0662110597086</span>
a_tag:  <a class="movie" hpp="act_video" href="#media">video</a>
  

签名:find_all_previous(name, attrs, string, limit, **kwargs)

     

签名:find_previous(name, attrs, string, **kwargs)

     

这些方法使用.previous_elements迭代标记和   在文档中出现的字符串。 find_all_previous()   method返回所有匹配项,find_previous()仅返回第一个匹配项   匹配