我对使用Python进行网络抓取相对较新。我目前有一个HTML文档,其中有四个页面。我正在尝试从其中刮掉第2页和第4页。
我该怎么做?
这是我到目前为止尝试过的:
import bs4
import os
soup=BeautifulSoup(open('Prod224_0055_00007464_20170930.html'),"html.parser")
Format=soup.prettify()
soup.find_all("a")
到目前为止,这是给我的:
[<a id="PAGE1">\xa0</a>,
<a href="#PAGE3" xmlns="http://www.w3.org/1999/xhtml">3</a>,
<a href="#PAGE4" xmlns="http://www.w3.org/1999/xhtml">4</a>,
<a id="PAGE2">\xa0</a>,
<a href="#SECTION3">3</a>,
<a href="#SECTION4">4</a>,
<a href="#PAGE3" xmlns="http://www.w3.org/1999/xhtml">3</a>,
<a href="#PAGE4" xmlns="http://www.w3.org/1999/xhtml">4</a>,
<a id="PAGE3">\xa0</a>,
<a id="SECTION1">1</a>,
<a id="SECTION2">2</a>,
<a id="PAGE4">\xa0</a>,
<a id="SECTION3">3</a>,
<a id="SECTION4">4</a>,
<a id="SECTION5">5</a>]
理想情况下,我想获取第2页和第4页,因为它们包含我想读取到csv文件中的数据。