如何使用libcurl获取网页标题

时间:2014-10-15 07:28:25

标签: c http libcurl

如何通过curl获取网页标题?我希望传递http或https网址并获取该网页的标题。我发现curl_easy_perform(curl)将html打印到终端,但我无法弄清楚如何解析html。

2 个答案:

答案 0 :(得分:1)

libcurl不是一个HTML解析库,它的重点是传输,即获取位。您需要自己解释它们,或转向其他库。

在您的情况下,您需要查找<title>元素并提取该元素的文本。

此处粘贴有点太大,但是this example from libcurl显示了如何在C中保存内存中的内容。它使用curl_easy_setopt()函数注册一个CURLOPT_WRITEFUNCTION回调,它接收所有数据

请注意,libcurl示例使用“精确拟合”的动态字符串,即每次获取更多数据时都会调用realloc()。这通常不是最好的方法,但它实际上很容易实现和理解,并且在一个例子中可能有意义。

答案 1 :(得分:0)

libcurl不会为你解析HTML。您需要使用其他库或编写自己的解析器。

看看HTML整洁。 Lib curl页面有一个example

如果你只想要一个标题,你可以尝试使用std :: string search或正则表达式的简单解决方案。