Question

我正在使用Django开发书签应用程序，并希望从使用javascript生成标题的网页中提取标题。我看过风车并安装/运行了硒，但是我相信这些工具不仅仅是我获得网页标题所需要的。我目前正在尝试使用spynner，但在页面完全呈现后未能成功检索内容。这是我目前的代码......

from spynner import Browser
from pyquery import PyQuery
browser = Browser()
browser.set_html_parser(PyQuery)
browser.load("https://www.coursera.org/course/techcity")

我收到SpynnerTimeout：达到超时：执行python shell中的最后一行时出现10秒错误。如果我再次执行最后一个语句，它将返回True，但只返回运行javascript之前的页面，该页面没有“正确的”页面标题。我也尝试了以下内容：

browser.load("https://www.coursera.org/course/techcity", wait_callback=wait_load(10))
browser.soup("title")[0].text

但这也会返回错误的标题 - 'Coursera.org'（即javascript运行前的标题）。

以下是我的问题：

是否有更有效的推荐方法来提取使用javascript动态生成的网页标题，使用其他一些python工具/库？如果是这样，那推荐的方法是什么？ - 任何示例代码赞赏。
如果使用spynner是一个很好的方法，我应该怎样做才能在页面加载后获得标题，甚至更好，在javascript呈现标题之后。我现在的代码就是我在博客文章中拼凑起来并在github上查看spynner的源代码。

如何从动态形成的网页中检索标题

0 个答案: