应用错误收集

时间：2011-02-20 00:35:46

标签： html-parsing irc

我希望获得一个网页的标题，这是许多IRC机器人的一个共同特征，我想将其整合到我正在写作的IRC客户端中。

我目前工作的方法基本上连接并发送整个网页的GET请求，然后找出标签并在它们之间读取。对于较大的网页，这可能比我想要的慢。我注意到的另一个问题是带有动态标题的网页（例如一些phpbb论坛）将不会返回准确的标题，因为它不会执行任何javascript等。

似乎获得准确标题的一种方法是将html转储到浏览器控件（例如IE COM控件）并拉出标题，但这只会让它更耗时。

有一种我不知道的简单方法吗？

答案 0 :(得分：0)

总之，不，不是真的。

我想而不是下载整个文档，您可以将HTTP文件流式传输到您的应用程序中，并在到达</title>时停止下载 - 这样可以节省您等待整个HTML文档的下载。

然而，如果您需要在某些客户端javascript更改后阅读标题，那么这种情况无济于事。正如你所说，我能想到的唯一方法就是使用浏览器控件。