Question

我有问题。我想使用libcurl和libtidy将html文件保存到我的电脑上的xml。

这是我找到的用于获取网站的代码（在我的情况下用于测试google.com），然后整理它。我从多个来源获得它并把它放在一起。

CURL *curl;
std::string readBuffer;

curl = curl_easy_init();
if(curl) {
    curl_easy_setopt(curl, CURLOPT_URL, "http://www.google.com");
    curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
    curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
    curl_easy_cleanup(curl);
}

const char* input = readBuffer.c_str();

TidyBuffer output = {0};
TidyBuffer errbuf = {0};
int rc = -1;
Bool ok;

TidyDoc tdoc = tidyCreate();
std::cout << "Tidying..." << std::endl;

ok = tidyOptSetBool(tdoc, TidyXhtmlOut, yes);
if (ok)
    rc = tidySetErrorBuffer(tdoc, &errbuf);
if (rc >= 0)
    rc = tidyParseString(tdoc, input);
if ( rc >= 0 )
    rc = tidyCleanAndRepair( tdoc );               
if ( rc >= 0 )
    rc = tidyRunDiagnostics( tdoc );               
if ( rc > 1 )                                    
    rc = ( tidyOptSetBool(tdoc, TidyForceOutput, yes) ? rc : -1 );
if ( rc >= 0 )
    rc = tidySaveBuffer( tdoc, &output );          

if ( rc >= 0 )
{
    if ( rc > 0 )
    printf( "\nAnd here is the result:\n\n%s", output.bp );
}
else
    printf( "A severe error (%d) occurred.\n", rc );

结果作为output.bp保存在byte *中。现在我尝试将其写入.txt文件，仅用于测试目的（稍后是xml文件）。为此，我使用以下代码行：

std::ofstream file;
file.open("C:/Testing/1.txt", std::ios_base::binary);
assert(file.is_open());

auto * charArray = (char*) output.bp;

file.write(charArray, sizeof(charArray));

file.close();

在指定位置创建文件，但只保存几个字符：

<html it

文档的其余部分只是空的，没有更多的行或任何内容，这就是所有保存的内容。我真的不知道为什么会这样，因为打印出output.bp一切正常。

Answer 1

file.write(charArray, sizeof(charArray));

sizeof(charArray)始终为8（在64位架构上），因为charArray是char*。这就是你为文件写了8个字符的原因。

要获取以null结尾的字符串的长度，您应该使用std::strlen()。但是，由于您使用的是TidyBuffer，因此您可以使用bp.size来避免O（N）操作。

将数组写入文件时丢失信息

1 个答案: