我试图下载网站中的文字(包括标题)。我使用了libcurl的选项:
curl_easy_setopt(myHandle, CURLOPT_HEADER, 0);
删除不必要的数据。然而,我得到了样式数据:
example.com:
Example Domain body { background-color: #f0f0f2; margin: 0; padding: 0; font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif; } div { width: 600px; margin: 5em auto; padding: 50px; background-color: #fff; border-radius: 1em; } a:link, a:visited { color: #38488f; text-decoration: none; } @media (max-width: 700px) { body { background-color: #fff; } div { width: auto; margin: 0 auto; border-radius: 0; padding: 1em; } } Example Domain This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. More information...http://www.iana.org/domains/example
是否有其他选项可以删除以下行:
body { background-color: #f0f0f2; margin: 0; padding: 0; font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif; }
还是我必须手动解析字符?
答案 0 :(得分:1)
libcurl
不会区分不同类型的内容。您将需要使用其他库来解析并删除它。
答案 1 :(得分:0)
我刚刚选择使用以下命令从页面中删除标题:
htmlCode = strstr(htmlCode, "</head>");
现在应该这样做