我写了一个抓取应用程序,它从网站上提取大量页面并解析它们。这在Windows中运行良好,能够快速提取页面。但是,在Linux上使用mono,拉动连接所需的时间非常慢。我发现如果我将URL写入文件,我可以启动一个wget进程来批量提取页面然后解析文件,但是在获取下一页之前需要cookie,其他标题和每页处理时,使用wget是不切实际的。
我已经进行了长时间的搜索,而我最接近问题的是here,但仍然无法为Linux提供解决方案。
我知道有不同的路由,但这并不重要,因为wget可以以极快的速度提取文件,而webclient / httpclient则不能。
我可以做些什么来尝试解决这个奇异且意想不到的问题?