网页抓取动态链接

时间:2010-05-04 08:30:14

标签: c# web-crawler

有人对抓取拥有动态网页/查询的网站有任何想法吗?我的意思是,如果我单击某个链接,每次尝试在Web浏览器中重新加载它时都会有不同的值。现在我的webcrawler无法下载这些页面的内容。请指教。

2 个答案:

答案 0 :(得分:1)

即使它是动态的也是如此。实际上爬虫只是3件事的主人

  1. 网址
  2. 如果是POST方法,则发送给服务器的数据
  3. 如果需要身份验证,则为cookie
  4. 就是这样,

    执行抓取工具时的常见问题:

    1. 错误猜测默认页面[index.html,index.php,default.aspx等] ..实际上没有它可用于所有方法[POST / GET]
    2. 每个字段名称中的一个未完全编写
    3. ASP.Net表单viewstate id字段(我忘了名字)但我可以轻松实现
    4. javascript生成的动态页面。这个是最难的部分,大多数情况下甚至谷歌仍然有这个问题。
    5. 希望有所帮助。

答案 1 :(得分:0)

您可能需要查看this问题详细说明如何编写抓取工具或查看包含良好抓取工具的http://searcharoo.net/的源代码(请参阅here)。