我正在使用C#抓取网站。一切正常,但它无法检测动态JS链接。例如,包含100多个产品的页面可能只有几页,而“下一页”m“上一页”链接可能是点击时生成的JS动态网址。典型的JS代码如下:
<a href="javascript:PageURL('
cf-233--televisions.aspx','?',2);">></a>
在网页上收集网址时,是否有获取上述href的实际链接?
我正在使用Html Agility Pack,但对任何其他技术都开放。我多次尝试谷歌,但似乎还没有解决方案。
感谢。
答案 0 :(得分:1)
您是否尝试过评估javascript来获取实际的href?它可能会有所帮助Parsing HTML to get script variable value
或许你应该检查一下PageURL功能的作用(只需用浏览器打开网站,然后在没有括号的情况下写入控制台PageURL。它会显示函数的代码)并用C#重写它
答案 1 :(得分:0)
AbotX允许您在页面上呈现javascript。它是一个功能强大的网络爬虫,具有高级功能。