我正在尝试使用goquery库在GoLang中收集Google搜索页面的结果。为了实现这一点,我正在使用goquery收集goquery选择的所有节点。问题是Find(“ *”)返回的选择似乎并不包含HTML文档的所有节点。问题:该方法是否收集具有整个树结构的所有节点?如果没有,是否有一种方法可以收集全部?
我尝试使用适用于整个文档选择的goquery Find(“ *”)方法。因此,尽管具有某些属性的节点在HTML文档中,但不会返回。例如,无法识别具有的节点
alltags:= doc.Find(“ *”)// doc是带有Google搜索的HTML文档
所选内容不包含带有class =“ srg”的div标签。这同样适用于其他类别值,例如“ bkWMgd”,“ rc”。
答案 0 :(得分:0)
这以前发生在我身上。我试图用python漂亮的汤包刮网,并且发生了同样的事情。
后来发现,尝试获取它时返回的html标记实际上是服务器在找到机器人后返回的标记。我通过将User-Agent
设置为Mozilla/5.0
来解决了这个问题。
希望这有助于您解决此问题。 您可以先更新已执行的获取请求的代码。