Question

我对使用Python进行网络抓取相对较新。我目前有一个HTML文档，其中有四个页面。我正在尝试从其中刮掉第2页和第4页。

我该怎么做？

这是我到目前为止尝试过的：

import bs4
import os
soup=BeautifulSoup(open('Prod224_0055_00007464_20170930.html'),"html.parser")
Format=soup.prettify()
soup.find_all("a")

到目前为止，这是给我的：

[<a id="PAGE1">\xa0</a>,
 <a href="#PAGE3" xmlns="http://www.w3.org/1999/xhtml">3</a>,
 <a href="#PAGE4" xmlns="http://www.w3.org/1999/xhtml">4</a>,
 <a id="PAGE2">\xa0</a>,
 <a href="#SECTION3">3</a>,
 <a href="#SECTION4">4</a>,
 <a href="#PAGE3" xmlns="http://www.w3.org/1999/xhtml">3</a>,
 <a href="#PAGE4" xmlns="http://www.w3.org/1999/xhtml">4</a>,
 <a id="PAGE3">\xa0</a>,
 <a id="SECTION1">1</a>,
 <a id="SECTION2">2</a>,
 <a id="PAGE4">\xa0</a>,
 <a id="SECTION3">3</a>,
 <a id="SECTION4">4</a>,
 <a id="SECTION5">5</a>]

理想情况下，我想获取第2页和第4页，因为它们包含我想读取到csv文件中的数据。

使用BeautifulSoup4在Python中进行网页抓取

0 个答案: