我正在重新审视我的旧代码并且偶然发现了一种基于其网址获取网站标题的方法。这并不是你所谓的稳定方法,因为它经常无法产生结果,有时甚至会产生不正确的结果。此外,有时它无法显示标题中的某些字符,因为它们是替代编码。
有没有人对此旧版本有改进建议?
public static string SuggestTitle(string url, int timeout)
{
WebResponse response = null;
string line = string.Empty;
try
{
WebRequest request = WebRequest.Create(url);
request.Timeout = timeout;
response = request.GetResponse();
Stream streamReceive = response.GetResponseStream();
Encoding encoding = System.Text.Encoding.GetEncoding("utf-8");
StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding);
while(streamRead.EndOfStream != true)
{
line = streamRead.ReadLine();
if (line.Contains("<title>"))
{
line = line.Split(new char[] { '<', '>' })[2];
break;
}
}
}
catch (Exception) { }
finally
{
if (response != null)
{
response.Close();
}
}
return line;
}
最后一点注意事项 - 我希望代码运行得更快,因为它一直阻塞,直到页面被提取为止,所以如果我只能得到网站标题而不是整个页面,那就太棒了。 / p>
答案 0 :(得分:40)
获取内容的更简单方法:
WebClient x = new WebClient();
string source = x.DownloadString("http://www.singingeels.com/");
获得标题的更简单,更可靠的方法:
string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>",
RegexOptions.IgnoreCase).Groups["Title"].Value;
答案 1 :(得分:4)
也许有了这个建议,新的世界就会为你敞开心扉 我也有这个问题并且来到了这个
下载&#34; Html Agility Pack&#34;来自http://html-agility-pack.net/?z=codeplex
或者去nuget:https://www.nuget.org/packages/HtmlAgilityPack/ 并添加此参考。
在代码文件中添加folow:
using HtmlAgilityPack;
在您的方法中写下以下代码:
var webGet = new HtmlWeb();
var document = webGet.Load(url);
var title = document.DocumentNode.SelectSingleNode("html/head/title").InnerText;
来源:
https://codeshare.co.uk/blog/how-to-scrape-meta-data-from-a-url-using-htmlagilitypack-in-c/ HtmlAgilityPack obtain Title and meta
答案 2 :(得分:-1)
为了实现这一目标,你需要做一些事情。
我之前使用SEO机器人做过这个,我一次能够处理近10,000个请求。您只需要确保每个Web请求都可以自包含在一个线程中。