使用 C ++ 和 libcurl 库,我试图以这种方式从该网站https://www.nutritionix.com/food/Banana获取完整的HTML:
int main(){
std::string content;
curl_global_init(CURL_GLOBAL_ALL);
CURL *curl = nullptr;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://www.nutritionix.com/food/Banana" );
curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &content);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
CURLcode code = curl_easy_perform(curl);
curl_easy_cleanup(curl);
}
curl_global_cleanup();
std::cout << content << std::endl;
system("pause");
}
writer
函数的定义方式如下:
static int writer(char *data, size_t size, size_t nmemb, std::string *writerData) {
if (writerData == NULL)
return 0;
writerData->append(data, size*nmemb);
return size * nmemb;
}
通过这种方式,我只能得到很少的HTML代码,但是如何在以后的阶段检索完整的HTML内容以进行解析?
答案 0 :(得分:0)
您不能说,或者更好:您拥有网站呼叫的全部html内容。
在现代网站上,一个简单的http请求只会在您的情况下返回一些字符和元数据长达70个字符的响应。脚本在加载时执行,然后将填充页面内容。
自己尝试
这是执行上述代码后字符串包含的内容