如何通过curl获取网页标题?我希望传递http或https网址并获取该网页的标题。我发现curl_easy_perform(curl)
将html打印到终端,但我无法弄清楚如何解析html。
答案 0 :(得分:1)
libcurl不是一个HTML解析库,它的重点是传输,即获取位。您需要自己解释它们,或转向其他库。
在您的情况下,您需要查找<title>
元素并提取该元素的文本。
此处粘贴有点太大,但是this example from libcurl显示了如何在C中保存内存中的内容。它使用curl_easy_setopt()
函数注册一个CURLOPT_WRITEFUNCTION
回调,它接收所有数据
请注意,libcurl示例使用“精确拟合”的动态字符串,即每次获取更多数据时都会调用realloc()
。这通常不是最好的方法,但它实际上很容易实现和理解,并且在一个例子中可能有意义。
答案 1 :(得分:0)
libcurl不会为你解析HTML。您需要使用其他库或编写自己的解析器。
看看HTML整洁。 Lib curl页面有一个example。
如果你只想要一个标题,你可以尝试使用std :: string search或正则表达式的简单解决方案。