由于javascript变量,不能用beautifulsoup和urllib刮

时间:2013-05-19 18:12:47

标签: javascript beautifulsoup urllib2

不幸的是我是beautifulsoup和urllib的新手,所以我甚至可能不会正确地问我需要什么.. 有一个网站www.example.com 我需要从这个网站中提取一些显示随机消息的数据。

问题是用户按下按钮后会显示消息,否则会显示“按按钮查看消息”等常规消息。

在搜索stackoverflow之后,我意识到可能没有办法通过使用我的浏览器调用这样的URL来更改变量.. www.example.com/?showRandomMsg='true'

在某些帖子中,我读过,也许我可以用bookmarlets来做..

是否有使用带有beautifulsoup或urllib的bookmarklet才能访问网站并使其显示随机消息?

提前致谢! :d

1 个答案:

答案 0 :(得分:1)

很长一段时间后我回来了,只是为了快速回答我自己的问题。

我在网上找到了很多解决方案和教程,其中大部分建议使用Selenium和xpath,但这种方法比我需要的更复杂。

所以我最终只使用Selenium来模拟浏览器(在我的情况下是firefox)并在页面完全加载后抓取html。

之后我仍然使用beautifoulsoup来解析html代码(现在也会包含javascript数据)。