我目前正在使用htmlAgilityPack进行网页抓取,但是我遇到了一个有脚本标签的网站,我无法加载它进行抓取。我对网络经验不足,不确定如何正确加载网页并转换回htmlAgility可以解析的内容。
当然,当我在chrome中检查元素时,有一个表,但是htmlAgilityPack会读取一个脚本标记。
任何帮助将不胜感激。
谢谢
答案 0 :(得分:0)
我也遇到过类似的问题。令人非常恼火的是,它们不是在C#控制台中对所有网站进行统一的方法。
但是,根据您正在查看的网站,html的head部分中的meta标签中可能会有一些信息。当我创建一个获取Youtube订阅计数的应用程序时,我发现它在元标记中有计数(我假设此信息在这里供脚本使用)。这可能与您正在抓取的网页类似。
为此,我首先添加了一个
document.save(//put a link to where the html file needs to go)
然后我在谷歌浏览器中打开了html文档,打开了开发工具并搜索了“订阅”(您可以将其替换为您要查找的内容)。希望根据您正在抓取的网站,可能会有一个标签,其中包含一些信息。
祝你好运! :)