使用LINQ过滤List <string>而不更改变量类型</string>

时间:2013-01-06 18:06:28

标签: c# linq list

我正在用c#编写一个网络爬虫。在获取页面上所有链接的方法中,我想返回链接列表,但是过滤&#39;它与LINQ一起使列表只包含存在的URL。我有一个名为RemoteFileExists的辅助方法,它返回一个布尔值。在方法结束时,我编写了以下LINQ行:

//Links is a List<string> that hasn't been filtered
return (from link in Links
                where RemoteFileExists(link)
                select link).ToList<string>();

出于某种原因,当我这样做时,List将返回空。

RemoteFileExists:

static bool RemoteFileExists(string url)
    {
        try
        {
            HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
            request.Method = "HEAD";
            HttpWebResponse response = request.GetResponse() as HttpWebResponse;
            return (response.StatusCode == HttpStatusCode.OK);
        }
        catch
        {
            return false;
        }

2 个答案:

答案 0 :(得分:3)

我猜您的链接不正确或您的网站不支持HEAD。由于此代码有效

List<string> Links = new List<string>() {"http://www.google.com"};
var res = ( from link in Links
            where RemoteFileExists(link)
            select link).ToList<string>();

答案 1 :(得分:0)

我一直在我的代码中使用RemoteFileExists方法。有时程序会挂起,因为请求未关闭。现在我使用以下代码:

static bool RemoteFileExists(string url)
{
  try
  {
    HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
    request.Method = "HEAD";
    HttpWebResponse response = request.GetResponse() as HttpWebResponse;
    response.Close();

    return (response.StatusCode == HttpStatusCode.OK);
  }
  catch
  {
    return false;
  }
}

此外,上述代码不会检测重定向。这对抓取工具很重要,因为您需要知道何时前进到另一个页面,而不是将重定向发送到同一页面。