构建爬虫以获取页面内容

时间:2014-04-11 09:41:45

标签: c# html http httpwebrequest

我正在编写一个抓取工具来获取网站的内容,但我有一些疑问如下:

  1. 由Fiddler调试的一个URL,我需要在此URL中使用get参数设置一些值(设置/获取sessionID,放入日期...)。

  2. 然后我有另一个POST网址,它使用上面网址中包含的Cookie,以便生成上面给出日期的网页内容。

  3. 在C#中我做的是,首先我运行第一个URL来解析ID,第二个我设置ID获取会话ID(PHPSESSID),第三步我给参数带日期,第四步,我运行最后一个获取内容的URL,但在最后一步,它警告我日期输入格式可能不正确,我尝试了很多日期格式类型但仍然没有结果。

    这些网址之间是否有任何关系,因为我是分开进行的,以获取网页的内容?我为每个HTTPWebRequest使用相同的PHPSESSID

0 个答案:

没有答案