刮掉返回生成html节点的javascript文件的ajax页面

时间:2014-12-12 13:28:38

标签: python web-scraping

某些页面不会在ajax上返回原始数据(如json或xml或html)。相反,他们使用像dojo这样的框架,其中ajax调用返回js文件,以某种方式填充html节点。

我想知道是否存在非Selenium策略来搜索这些页面中的数据。

1 个答案:

答案 0 :(得分:1)

除了基于seleniumwebkit的方法之外,您还可以使用javascript代码解析器解析javascript,例如slimit。它肯定会提高网络抓取的复杂性和可靠性,因为你用它来制作一个裸硬核金属 - 把它想象成一个“白盒子”的方法而不是基于selenium的高级“黑盒子”之一。

以下是我为您提出的完全相同的主题/问题给出的答案:

它涉及使用slimit从javascript代码中获取对象,通过json模块将其加载到python数据结构,并使用BeautifulSoup解析器解析内部的HTML。 / p>