如何从文本中提取所需信息?蟒蛇

时间:2019-02-03 18:21:19

标签: python

我想延伸:tamar tamar,0529589055

根据这段文字,我要多次这样做。

                    <h3 class="name">tamar tamar</h3>
                    <ul class="list-inline">
                        <li>gender:female</li>
                        <li>age:20</li>
                    <li class="phone" data="0529589055">phone:  0529589055</li>
                    <li class="email" data="tamar0529589055@gmail.com">email: tamar89055@gmail.com</li>         <!--                        <a 

2 个答案:

答案 0 :(得分:0)

您是否考虑过尝试使用正则表达式? 例如,简单的(\w+ \w+)</h3>将提取名称。至少对于上面的例子。 对于类似的数字: (0\d+)</li>从我的头顶开始。

我发现易于使用的在线正则表达式网站:https://pythex.org

和python regex文档: https://docs.python.org/2/library/re.html

答案 1 :(得分:0)

BeautifulSoup是您要寻找的

from bs4 import BeautifulSoup
a='''<h3 class="name">tamar tamar</h3>
<ul class="list-inline">
    <li>gender:female</li>
    <li>age:20</li>
<li class="phone" data="0529589055">phone:  0529589055</li>
<li class="email" data="tamar0529589055@gmail.com">email: tamar89055@gmail.com</li> 
'''
soup = BeautifulSoup(a)
print(soup.find('h3',{"class": "name"}).text)
print(soup.find('li',{"class":'phone'}).text)