BeautifulSoup:提取不在给定标记中的文本

时间:2017-02-11 16:34:12

标签: python html python-3.x web-scraping beautifulsoup

我有以下变量,getnameinfo等于:

sockaddr

我想从这个变量中只提取日期header。 我怎么能在python中使用BeautifulSoup来做呢?

1 个答案:

答案 0 :(得分:4)

如果您知道日期始终是标头变量中的最后一个文本节点,那么您可以访问.contents property并获取返回列表中的最后一个元素:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

header.contents[-1].strip()
> February 11, 2017

或者,作为MYGz pointed out in the comments below,您可以将文本拆分为新行并检索列表中的最后一个元素:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

header.text.split('\n')[-1]
> February 11, 2017

如果您不知道日期文本节点的位置,那么另一个选项是解析任何匹配的字符串:

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

re.findall(r'\w+ \d{1,2}, \d{4}', header.text)[0]
> February 11, 2017

但是,正如您的标题所暗示的,如果您只想检索未使用元素标记包装的文本节点,那么您可以使用以下过滤掉元素:

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

text_nodes = [e.strip() for e in header if not e.name and e.strip()]

请记住,由于未包装第一个文本节点,因此将返回以下内容:

> ['Andrew Anglin', 'February 11, 2017']

当然,您还可以组合最后两个选项并解析返回的文本节点中的日期字符串:

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html, 'html.parser')
header = soup.find('p')

for node in header:
    if not node.name and node.strip():
        match = re.findall(r'^\w+ \d{1,2}, \d{4}$', node.strip())
        if match:
            print(match[0])

> February 11, 2017