我一直在尝试使用Python请求和BeautifulSoup来尝试编写Web scraper。我尝试在线使用多种解决方案登录本网站,但无法这样做。
这样做的一个原因是表单元素不使用传统方案。下面发布了一段网站代码。任何帮助将不胜感激。
This image contains the code of the form element
编辑1:我对此很新,因此一直处于相当重要的一步。我试图更改我的登录凭据的键值,它似乎没有帮助。
答案 0 :(得分:-1)
你可以有一些理由可以解决它的问题。您的代码也将受到赞赏。它的第一个原因是'因为你需要模仿一个真正的浏览器,比如谷歌浏览器或Firefox,我的工作才能实现。
实际上,您需要拥有一个用户代理。默认情况下,python用户代理请求不像true user agent。
在您需要捕获weeb网站的cookie并将其用于登录之后。
你有很多解决办法,我可以在使用时解释两个: - Selenium生成浏览器的行为。 - 使用请求但使用浏览器等所有选项:生成用户代理并使用cookie(服务器需要认为您是真正的用户)。
答案 1 :(得分:-1)
Dayle,你必须发表你对问题的处理方法。
我通过这种方式制作了爬虫,
response = urlopen(page_url)
if 'text/html' in response.getheader('Content-Type'):
print("hello 123")
html_bytes = response.read()
html_string = html_bytes.decode("utf-8")
并将此html_string传递给BeautifulSoup。
soup = BeautifulSoup(html_string, 'html.parser')
html_string = soup.prettify()
我认为这使得它变得更加简单。