快速准确地抓取网页标题

时间:2011-02-20 00:35:46

标签: html-parsing irc

我希望获得一个网页的标题,这是许多IRC机器人的一个共同特征,我想将其整合到我正在写作的IRC客户端中。

我目前工作的方法基本上连接并发送整个网页的GET请求,然后找出标签并在它们之间读取。对于较大的网页,这可能比我想要的慢。我注意到的另一个问题是带有动态标题的网页(例如一些phpbb论坛)将不会返回准确的标题,因为它不会执行任何javascript等。

似乎获得准确标题的一种方法是将html转储到浏览器控件(例如IE COM控件)并拉出标题,但这只会让它更耗时。

有一种我不知道的简单方法吗?

1 个答案:

答案 0 :(得分:0)

总之,不,不是真的。

我想而不是下载整个文档,您可以将HTTP文件流式传输到您的应用程序中,并在到达</title>时停止下载 - 这样可以节省您等待整个HTML文档的下载。

然而,如果您需要在某些客户端javascript更改后阅读标题,那么这种情况无济于事。正如你所说,我能想到的唯一方法就是使用浏览器控件。