Python Beautiful Soup在div标签内提取数据

时间:2015-06-23 02:27:45

标签: python html beautifulsoup html-parsing

我正在尝试使用Pythons beautifulSoup从HTML文件中提取数据。以下HTML行是我感兴趣的。

<div class="myself" title="Name@email.com [11:07:27 AM]">
     <nobr>Name</nobr></div>

我想提取标题(带有电子邮件和时间戳)。我可以通过...

访问该课程
find('div', attrs={'class':'myself'}))

我可以从那里打印div的全部内容或div中标签中的信息,但我无法弄清楚如何获取title因为它在同一个内div代码

2 个答案:

答案 0 :(得分:4)

Attributes can be retrieved in a dictionary-like manner

  

标签可以包含任意数量的属性。您可以访问标签   通过将标签视为字典来处理属性。

{{1}}

答案 1 :(得分:0)

请使用此方法

>>>import bs4
>>>html_string = "<div class="myself" title="Name@email.com [11:07:27 AM]">
 <nobr>Name</nobr></div>"
>>>title_string = bs4.BeautifulSoup(html_string).div.attrs['title']
>>>print(title_string)
'Name@email.com [11:07:27 AM]'