抓取网页并抓取所有动态Javascript链接

时间:2015-04-14 05:55:57

标签: javascript c# html

我正在使用C#抓取网站。一切正常,但它无法检测动态JS链接。例如,包含100多个产品的页面可能只有几页,而“下一页”m“上一页”链接可能是点击时生成的JS动态网址。典型的JS代码如下:

<a href="javascript:PageURL('
        cf-233--televisions.aspx','?',2);">&gt;</a>

在网页上收集网址时,是否有获取上述href的实际链接?

我正在使用Html Agility Pack,但对任何其他技术都开放。我多次尝试谷歌,但似乎还没有解决方案。

感谢。

2 个答案:

答案 0 :(得分:1)

您是否尝试过评估javascript来获取实际的href?它可能会有所帮助Parsing HTML to get script variable value

或许你应该检查一下PageURL功能的作用(只需用浏览器打开网站,然后在没有括号的情况下写入控制台PageURL。它会显示函数的代码)并用C#重写它

答案 1 :(得分:0)

AbotX允许您在页面上呈现javascript。它是一个功能强大的网络爬虫,具有高级功能。