Question

我正在使用Mechanize登录linkedIn并获取某公司的所有员工然而，当我下载带有员工搜索结果的页面时，它缺少整个中间部分，我不知道为什么。

这是我的代码（拿出我的登录信息）：

from mechanize import Browser
from bs4 import BeautifulSoup
br=Browser()
br.set_handle_robots(False)
br.open('https://www.linkedin.com/')
br.select_form('login')
br['session_key']=YOUR_EMAIL_HERE
br['session_password']=YOUR_PASSWORD_HERE
response=br.submit()
page=br.open('https://www.linkedin.com/vsearch/p?f_CC=10667')
html=page.read()
soup=BeautifulSoup(html)
text=soup.prettify()
text=text.encode("ascii", "ignore")
fo= open("website.html",'wb')
fo.write(text)
fo.close()

响应是这样的（我建议下载HTML，然后用浏览器查看）：http://pastebin.com/7z1dPiTd

我不确定我是否正确使用了open函数;这可能是问题所在无论如何，谢谢先进！如果您有任何问题，请告诉我。

Answer 1

好的，在做了一些研究后，似乎Mechanize没有等待加载Javascript，因此我没有下载正确的信息。 Mechanize没有提供等待Javascript的方法，因此我必须使用windmill或selenium 看看这些： here 和 here

为什么机械化不下载整页？

1 个答案: