如何选择"加载更多结果"使用Python& amp; LXML

时间:2014-06-19 10:42:03

标签: python web-scraping lxml

我在抓一个网页。该网页包含50个条目。在50个条目之后它给出了一个 加载更多结果按钮。我需要自动选择它。我该怎么做。对于抓取我使用的是Python,Lxml。

2 个答案:

答案 0 :(得分:4)

即使JavaScript正在使用http请求来获取数据,因此一种方法是调查,当用户要求“加载更多结果”并模拟这些请求时,哪些请求正在提供数据。

这不是传统的抓取,它基于普通或渲染的html内容并检测更多链接,但可以是有效的解决方案。

下一步行动:

  • 访问Google Chrome或Firefox中的页面
  • 按F12启动开发人员工具或Firebug
  • 切换到“网络”标签
  • 点击“加载更多结果”
  • 检查,哪些http请求已提供数据以加载更多结果以及返回的数据。
  • 尝试模仿Python的这些请求

请注意,数据不一定是HTML或XML格式,但可以是JSON格式。但Python也提供了足够的工具来处理这种格式。

答案 1 :(得分:1)

你做不到。该功能由javascript提供,lxml将不会执行。