网站抓取:为什么我在多次点击后遇到DNS问题?

时间:2015-03-16 13:01:16

标签: c#-4.0 web web-scraping screen-scraping

我使用在.net 4.5上运行的C#控制台应用程序,每50-90秒随机抓取一个网站数据。我发布到网站有几个值,并根据返回的值启动其他一些过程。问题是在说了大约一千次点击之后,我得到了看起来像DNS错误的东西。在尝试修复问题之前,我试图首先解决问题的根源。以下是我在日志中看到的一些错误:

  1. 无法解析远程名称
  2. 无法连接到远程服务器
  3. 解析值<时遇到意外的字符。路径'', 第0行,第0位。
  4. 无法从传输连接读取数据现有的 连接被远程主机强行关闭。
  5. 无法从传输连接读取数据已建立 连接被主机中的软件中止。
  6. 我有大约60%的时间遇到​​第一个错误。剩余的40%在上面列出的其余错误之间分配。这些问题是由我正在抓取的网站或我端的DNS服务器引起的还是其他什么?出于所有实际目的,我正在抓取的网站是可以的,只要我保持自动点击的间隔超过45秒,我正在做。我下载的数据平均每次点击大约30KB。请帮助我了解可能出现的问题以及我可以尝试解决的问题。

1 个答案:

答案 0 :(得分:0)

我说您正在针对旨在保护网站免受DDoS攻击http://en.wikipedia.org/wiki/Denial-of-service_attack的自动系统运行。

它看到你的同一个IP地址在很短的时间内重复出现,只是阻止了你对最终服务器的解析。