应用错误收集

时间：2014-10-15 07:28:25

标签： c http libcurl

如何通过curl获取网页标题？我希望传递http或https网址并获取该网页的标题。我发现curl_easy_perform(curl)将html打印到终端，但我无法弄清楚如何解析html。

答案 0 :(得分：1)

libcurl不是一个HTML解析库，它的重点是传输，即获取位。您需要自己解释它们，或转向其他库。

在您的情况下，您需要查找<title>元素并提取该元素的文本。

此处粘贴有点太大，但是this example from libcurl显示了如何在C中保存内存中的内容。它使用curl_easy_setopt()函数注册一个CURLOPT_WRITEFUNCTION回调，它接收所有数据

请注意，libcurl示例使用“精确拟合”的动态字符串，即每次获取更多数据时都会调用realloc()。这通常不是最好的方法，但它实际上很容易实现和理解，并且在一个例子中可能有意义。

答案 1 :(得分：0)

libcurl不会为你解析HTML。您需要使用其他库或编写自己的解析器。

看看HTML整洁。 Lib curl页面有一个example。

如果你只想要一个标题，你可以尝试使用std :: string search或正则表达式的简单解决方案。