python - 刮掉返回生成html节点的javascript文件的ajax页面

刮掉返回生成html节点的javascript文件的ajax页面

时间：2014-12-12 13:28:38

标签： python web-scraping

某些页面不会在ajax上返回原始数据（如json或xml或html）。相反，他们使用像dojo这样的框架，其中ajax调用返回js文件，以某种方式填充html节点。

我想知道是否存在非Selenium策略来搜索这些页面中的数据。

1 个答案:

答案 0 :(得分：1)

除了基于selenium或webkit的方法之外，您还可以使用javascript代码解析器解析javascript，例如slimit。它肯定会提高网络抓取的复杂性和可靠性，因为你用它来制作一个裸硬核金属 - 把它想象成一个“白盒子”的方法而不是基于selenium的高级“黑盒子”之一。

以下是我为您提出的完全相同的主题/问题给出的答案：

Having trouble accessing xpath attribute with scrapy

它涉及使用slimit从javascript代码中获取对象，通过json模块将其加载到python数据结构，并使用BeautifulSoup解析器解析内部的HTML。 / p>