我在抓一个网页。该网页包含50个条目。在50个条目之后它给出了一个 加载更多结果按钮。我需要自动选择它。我该怎么做。对于抓取我使用的是Python,Lxml。
答案 0 :(得分:4)
即使JavaScript正在使用http请求来获取数据,因此一种方法是调查,当用户要求“加载更多结果”并模拟这些请求时,哪些请求正在提供数据。
这不是传统的抓取,它基于普通或渲染的html内容并检测更多链接,但可以是有效的解决方案。
下一步行动:
请注意,数据不一定是HTML或XML格式,但可以是JSON格式。但Python也提供了足够的工具来处理这种格式。
答案 1 :(得分:1)
你做不到。该功能由javascript提供,lxml将不会执行。