如何从动态形成的网页中检索标题

时间:2013-03-20 04:31:27

标签: javascript python web-scraping spynner

我正在使用Django开发书签应用程序,并希望从使用javascript生成标题的网页中提取标题。我看过风车并安装/运行了硒,但是我相信这些工具不仅仅是我获得网页标题所需要的。我目前正在尝试使用spynner,但在页面完全呈现后未能成功检索内容。这是我目前的代码......

from spynner import Browser
from pyquery import PyQuery
browser = Browser()
browser.set_html_parser(PyQuery)
browser.load("https://www.coursera.org/course/techcity")  

我收到SpynnerTimeout:达到超时:执行python shell中的最后一行时出现10秒错误。如果我再次执行最后一个语句,它将返回True,但只返回运行javascript之前的页面,该页面没有“正确的”页面标题。我也尝试了以下内容:

browser.load("https://www.coursera.org/course/techcity", wait_callback=wait_load(10))
browser.soup("title")[0].text

但这也会返回错误的标题 - 'Coursera.org'(即javascript运行前的标题)。

以下是我的问题:

  1. 是否有更有效的推荐方法来提取使用javascript动态生成的网页标题,使用其他一些python工具/库?如果是这样,那推荐的方法是什么? - 任何示例代码赞赏。
  2. 如果使用spynner是一个很好的方法,我应该怎样做才能在页面加载后获得标题,甚至更好,在javascript呈现标题之后。我现在的代码就是我在博客文章中拼凑起来并在github上查看spynner的源代码。

0 个答案:

没有答案