Question

使用 C ++ 和 libcurl 库，我试图以这种方式从该网站https://www.nutritionix.com/food/Banana获取完整的HTML：

int main(){
   std::string content;
   curl_global_init(CURL_GLOBAL_ALL);
   CURL *curl = nullptr;
   curl = curl_easy_init();
   if (curl) {
       curl_easy_setopt(curl, CURLOPT_URL, "https://www.nutritionix.com/food/Banana" );
       curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
       curl_easy_setopt(curl, CURLOPT_WRITEDATA, &content);
       curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
       CURLcode code = curl_easy_perform(curl);
       curl_easy_cleanup(curl);
   }
   curl_global_cleanup();
   std::cout << content << std::endl;
   system("pause");
}

writer函数的定义方式如下：

static int writer(char *data, size_t size, size_t nmemb, std::string *writerData) {
   if (writerData == NULL)
       return 0;
   writerData->append(data, size*nmemb);
   return size * nmemb;
}

通过这种方式，我只能得到很少的HTML代码，但是如何在以后的阶段检索完整的HTML内容以进行解析？

Answer 1

您不能说，或者更好：您拥有网站呼叫的全部html内容。

在现代网站上，一个简单的http请求只会在您的情况下返回一些字符和元数据长达70个字符的响应。脚本在加载时执行，然后将填充页面内容。

自己尝试

访问https://www.nutritionix.com/food/Banana
Ctrl + Shift + i
转到“网络”标签，然后重新加载页面
单击名为“香蕉”的列表中的第一项
单击右侧的“响应”

这是执行上述代码后字符串包含的内容

C ++ libcurl-无法从URL检索整个html内容

1 个答案: