使用html标记从Google搜索页进行网页抓取

时间:2019-05-07 22:52:11

标签: web-scraping uipath

我正在尝试进行Google搜索,并将前5个结果(标题/ URL)放入Excel文档中。

我尝试使用“数据收集”,但根据搜索词的不同,谷歌将显示其他页面。有时它会带有视频,图像或相关搜索词。因此,大多数时候,我实际上无法从页面获取所有结果,因为uiPath无法识别它们,可能是因为div不同。所以我的想法是通过html标签来获取它们,因为每个标题都使用H3,但我找不到解决方法。

也尝试过寻找子代>获取属性,但没有成功,我觉得这可能是最好的方法,我只是还没有尝试过使其有效。尝试了几个小时。

有人遇到类似的问题并找到了解决方案吗?

1 个答案:

答案 0 :(得分:0)

当我这样做之前,我不得不多次刮擦才能获取数据。第一个抓取将获得初始页面结果,然后您可以进行第二次抓取以获取第2页上的数据。我曾经不得不在第一页上进行多次刮擦才能获取所有信息,但是在第1页之后,数据是一致的且易于刮擦。希望这会有所帮助。

相关问题