某些页面不会在ajax上返回原始数据(如json或xml或html)。相反,他们使用像dojo这样的框架,其中ajax调用返回js文件,以某种方式填充html节点。
我想知道是否存在非Selenium策略来搜索这些页面中的数据。
答案 0 :(得分:1)
除了基于selenium
或webkit
的方法之外,您还可以使用javascript代码解析器解析javascript,例如slimit
。它肯定会提高网络抓取的复杂性和可靠性,因为你用它来制作一个裸硬核金属 - 把它想象成一个“白盒子”的方法而不是基于selenium
的高级“黑盒子”之一。
以下是我为您提出的完全相同的主题/问题给出的答案:
它涉及使用slimit
从javascript代码中获取对象,通过json
模块将其加载到python数据结构,并使用BeautifulSoup
解析器解析内部的HTML。 / p>