使用BeautifulSoup4在Python中进行网页抓取

时间:2019-08-02 16:34:54

标签: python-2.7

我对使用Python进行网络抓取相对较新。我目前有一个HTML文档,其中有四个页面。我正在尝试从其中刮掉第2页和第4页。

我该怎么做?

这是我到目前为止尝试过的:

import bs4
import os
soup=BeautifulSoup(open('Prod224_0055_00007464_20170930.html'),"html.parser")
Format=soup.prettify()
soup.find_all("a")

到目前为止,这是给我的:

[<a id="PAGE1">\xa0</a>,
 <a href="#PAGE3" xmlns="http://www.w3.org/1999/xhtml">3</a>,
 <a href="#PAGE4" xmlns="http://www.w3.org/1999/xhtml">4</a>,
 <a id="PAGE2">\xa0</a>,
 <a href="#SECTION3">3</a>,
 <a href="#SECTION4">4</a>,
 <a href="#PAGE3" xmlns="http://www.w3.org/1999/xhtml">3</a>,
 <a href="#PAGE4" xmlns="http://www.w3.org/1999/xhtml">4</a>,
 <a id="PAGE3">\xa0</a>,
 <a id="SECTION1">1</a>,
 <a id="SECTION2">2</a>,
 <a id="PAGE4">\xa0</a>,
 <a id="SECTION3">3</a>,
 <a id="SECTION4">4</a>,
 <a id="SECTION5">5</a>]

理想情况下,我想获取第2页和第4页,因为它们包含我想读取到csv文件中的数据。

0 个答案:

没有答案