Question

我正在尝试从此URL抓取数据，但是在使用硒加载URL时，它不会加载此URL，而是需要登录页面，但是我想要的数据是公开的。

path = "C:/Users/gyaan/Desktop/chromedriver"
driver = webdriver.Chrome(path)
driver.get('http://www.egazette.com.sg/gazetteViewDetail.aspx?ct=gg&sc=Ads&year=2020&subscriber=1&stages=3')

请解决此问题或建议如何打开我直接传递的URL

Answer 1

正如一个用户指出的那样，该链接是登录页面。可能是您已经在浏览器上登录，所以看不到登录页面。它不是公共页面。

您可以设置Selenium为您键入登录凭据。我会考虑这样做的。

或者，如果它是“归档”页面之一，则可以将Selenium配置为以与您相同的方式导航到该页面。

Answer 2

如果您已经登录，那么它应该可以正常工作，您不必登录。我可以看到该页面没有“记住我”复选框，但是如果您在另一个浏览器窗口中打开了该页面，它无需登录即可工作。

PS您将beautifulsoup放入了标签中，但使用了硒。

硒的网络抓取问题

2 个答案: