硒的网络抓取问题

时间:2020-08-15 05:05:35

标签: python selenium web-scraping beautifulsoup

我正在尝试从此URL抓取数据,但是在使用加载URL时,它不会加载此URL,而是需要登录页面,但是我想要的数据是公开的。

path = "C:/Users/gyaan/Desktop/chromedriver"
driver = webdriver.Chrome(path)
driver.get('http://www.egazette.com.sg/gazetteViewDetail.aspx?ct=gg&sc=Ads&year=2020&subscriber=1&stages=3')

请解决此问题或建议如何打开我直接传递的URL

2 个答案:

答案 0 :(得分:1)

正如一个用户指出的那样,该链接是登录页面。可能是您已经在浏览器上登录,所以看不到登录页面。它不是公共页面。

您可以设置Selenium为您键入登录凭据。我会考虑这样做的。

或者,如果它是“归档”页面之一,则可以将Selenium配置为以与您相同的方式导航到该页面。

答案 1 :(得分:0)

如果您已经登录,那么它应该可以正常工作,您不必登录。我可以看到该页面没有“记住我”复选框,但是如果您在另一个浏览器窗口中打开了该页面,它无需登录即可工作。

PS您将beautifulsoup放入了标签中,但使用了硒。