我想获取需要点击链接的网页数据。
我尝试使用爬虫和提取器捕获链接字段,并将列验证设置为链接和html。但它不会返回实际的链接。 只有在我点击链接后,才会打开一个弹出窗口,我想要数据。 每个登陆页面都有大约50个这样的链接。我想抓取每个链接。
我尝试使用连接器,但事情变得复杂,因为有大约90k查询。此外,连接器不会返回页面的URL,这将是有用的。
答案 0 :(得分:1)
提取这些数据实际上取决于网站。导入无法从弹出窗口中提取数据。但是,取决于网站的结构,提取链接路径是可能的。如果您无法使用该工具提取数据,我建议使用xpath获取链接路径。
要执行此操作,请导航到您想要此数据的页面,右键单击并选择“检查元素”。选择页面上链接路径的位置,再次右键单击并选择“选择xpath”。返回提取器并选择“高级设置”图标并粘贴到xpath中。同样,这可能不起作用,因为它取决于它的网站结构,但仍值得一试。
谢谢,
梅格