使用网络机器人进行网络抓取

时间:2019-12-28 22:14:34

标签: python-3.x webbot

我正在尝试创建一个简单的程序,使用我的凭据登录到网页,并获取我在大学帐户中剩余的flex美元的总金额。从登录页面开始,我登录并重定向到感兴趣的页面,我只想获取该美元金额并对其进行一些操作。

我目前正在使用webbot进行登录,该方法可以正常工作,我刚刚编辑了凭据:

from webbot import Browser

web = Browser()
web.go_to('insert my url here')
#enter your username and password in the into fields below
web.type('insert email here', into='username')
web.type('insert password here', into='password')
web.click('Login', tag='span')

到目前为止,它可以完美运行,创建一个Chrome实例并登录到我要从中获取美元金额的页面。我想我可能想继续使用urllib,但是,我认为urllib不会从我当前登录的Chrome实例中受益。如何解决此问题并从页面中获取一个简单的html元素?

1 个答案:

答案 0 :(得分:0)

您首先需要获取当前网页的html源代码。您可以使用get_page_source()来完成。然后,您需要将html源代码传递给beautifulsoup

from webbot import Browser
from bs4 import BeautifulSoup
import time

web = Browser()
web.go_to('insert my url here')
#enter your username and password in the into fields below
web.type('insert email here', into='username')
web.type('insert password here', into='password')
web.click('Login', tag='span')
time.sleep(5)

content = web.get_page_source()
soup = BeautifulSoup(content)

#You can now find the element you want
samples = soup.find_all("a", "item-title")