为什么机械化不下载整页?

时间:2014-04-25 23:00:07

标签: python beautifulsoup mechanize mechanize-python

我正在使用Mechanize登录linkedIn并获取某公司的所有员工 然而,当我下载带有员工搜索结果的页面时,它缺少整个中间部分,我不知道为什么。

这是我的代码(拿出我的登录信息):

from mechanize import Browser
from bs4 import BeautifulSoup
br=Browser()
br.set_handle_robots(False)
br.open('https://www.linkedin.com/')
br.select_form('login')
br['session_key']=YOUR_EMAIL_HERE
br['session_password']=YOUR_PASSWORD_HERE
response=br.submit()
page=br.open('https://www.linkedin.com/vsearch/p?f_CC=10667')
html=page.read()
soup=BeautifulSoup(html)
text=soup.prettify()
text=text.encode("ascii", "ignore")
fo= open("website.html",'wb')
fo.write(text)
fo.close()

响应是这样的(我建议下载HTML,然后用浏览器查看):http://pastebin.com/7z1dPiTd

我不确定我是否正确使用了open函数;这可能是问题所在 无论如何,谢谢先进!如果您有任何问题,请告诉我。

1 个答案:

答案 0 :(得分:0)

好的, 在做了一些研究后,似乎Mechanize没有等待加载Javascript,因此我没有下载正确的信息。 Mechanize没有提供等待Javascript的方法,因此我必须使用windmill或selenium 看看这些: herehere