使用BeautifulSoup刮取页面会产生奇怪的结果(末尾有多个<p> </p>)。为什么?

时间:2018-09-04 06:59:22

标签: python web-scraping beautifulsoup

我正在尝试使用BeautifulSoup刮一页。我想保留<p></p>标签,以便以后将内容存储在.xml文件中,分为段落,标题等。不幸的是,结果令我有些惊讶。这是它的样子:

enter image description here

为什么最后有这么多</p></p>?我习惯了看起来像这样的结构:

<p>some paragraph... </p>
<p>next paragraph... </p>

不是这样的:

some paragraph... <p>
next paragraph... <p></p>
</p>

当我检查Chrome中的HTML结构时,一切看起来都很好:

enter image description here

为什么会这样? 这是我的代码:

import os
import requests
from bs4 import BeautifulSoup

payload = {
'username': os.environ['POLITYKA_USERNAME'],
'password': os.environ['POLITYKA_PASSWORD'],
'login_success': 'http://archiwum.polityka.pl',
'login_error': 'https://archiwum.polityka.pl/art/grypa-nam 
niestraszna,378836.html'
}

login_url = 'https://www.polityka.pl/sso/login'
base_url = 'http://archiwum.polityka.pl'
example_url = 'https://archiwum.polityka.pl/art/sciganie- 
wnbsp;organach,378798.html'
with requests.Session() as session:
    session.headers={'User-Agent' : 'Mozilla/5.0'}
    post = session.post(login_url, data=payload)
    request = session.get(example_url)
    soup = BeautifulSoup(request.content, 'html.parser')
    box = soup.find('div', {'id' : 'container'}).find('div', {'class' : 'middle'}).find('div', {'class', 'right'}).find('div', {'class' : 'box'})
    content = box.find('p', {'class' : 'box_text'}).find_next_sibling()
    print(content)

1 个答案:

答案 0 :(得分:1)

bs4提取

  

另一种选择是纯Python的html5lib解析器,它以Web浏览器的方式解析HTML。根据您的设置,您可以使用以下命令之一安装html5lib:

$ apt-get install python-html5lib

$ easy_install html5lib

$ pip install html5lib

话虽如此,您仍然需要仍然使用find_next_siblings()

的复数形式

此外,您将需要find_next_siblings()函数的参数。

示例:

get_html = 'https://archiwum.polityka.pl/art/sciganiewnbsp;organach,378798.html'
soup = bs4(get_html, 'html5lib')
find_location = soup.find('div', {'id' : 'container'}) \
                    .find('div', {'class' : 'middle'}) \
                    .find('div', {'class', 'right'}) \
                    .find('div', {'class' : 'box'}) \
                    .find('p', {'class' : 'box_text'}) \
                    .find_next_siblings('p')

for content in find_location:
    print(content)

只需将'html.parser'更改为'html5lib'find_next_siblings('p'),然后迭代list()

更好的是,添加条件语句以删除空标签

for content in find_location:
    if content.get_text() is not '':
        print(content)

尝试一下,让我知道它是否有效。