读取xml时出现超出界限错误

时间:2015-10-20 15:43:48

标签: c++ xml linux xml-parsing redhat

使用libxml解析文件时,我得到了一个奇怪的段错误。当我将它编译为32位应用程序时,此代码以前工作。我将其更改为64位应用程序,它将停止工作。

如果(xmlStrcmp(cur-> name,(const xmlChar *)" servers"))"

cur-> name是一个const xmlChar *,它指向一个表示其out out界限的地址。但是当我调试并转到该内存位置时,该数据是正确的。

int XmlGetServers()
{
xmlDocPtr doc;
xmlNodePtr cur;

doc = xmlParseFile("Pin.xml");
if (doc == NULL)
{
    std::cout << "\n Pin.xml not parsed successfully." << std::endl;
    return -1;
}
cur = xmlDocGetRootElement(doc);

if (cur == NULL)
{
    std::cout << "\n Pin.xml is empty document." << std::endl;
    xmlFreeDoc(doc);
    return -1;
}
if (xmlStrcmp(cur->name, (const xmlChar *) "servers"))
{
    std::cout << "\n ERROR: Pin.xml of the wrong type, root node != servers." << std::endl;
    xmlFreeDoc(doc);
    return -1;
}
}

在初始化cur之前,name参数为

Name : name
    Details:0xed11f72000007fff <Address 0xed11f72000007fff out of bounds>

初始化cur后,name参数为

Name : name
    Details:0x64c43000000000 <Address 0x64c43000000000 out of bounds> 

引用的XML文件

<?xml version="1.0"?>

<servers>

<server_info>

    <server_name>Server1</server_name>

    <server_ip>127.0.0.1</server_ip> 

    <server_data_port>9000</server_data_port> 

</server_info>

<server_info>

    <server_name>Server2</server_name> 

    <server_ip>127.0.0.1</server_ip> 

    <server_data_port>9001</server_data_port> 

</server_info>

</servers>

系统:

操作系统:Redhat Enterprise Linux 6.4 64位

海湾合作委员会:4.4.7-3

包:libxml2-2.7.6-8.el6_3.4.x86_64

2 个答案:

答案 0 :(得分:17)

我按原样拿了你的代码,并补充说:

#include <libxml/parser.h>
#include <iostream>

然后将函数重命名为main()并在x86-64 Fedora 22上编译它,它有libxml2 2.9.2

生成的代码使用示例文件成功运行,没有segfaults。即使valgrind发现没有内存访问冲突。作为证据,得到的缩写strace日志如下:

stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
open("Pin.xml", O_RDONLY)               = 3
lseek(3, 0, SEEK_CUR)                   = 0
read(3, "<?xml version=\"1.0\"?>\n\n<servers>\n\n<server_info>\n\n    <server_name>Server1</server_name>\n\n    <server_ip>127.0.0.1</server_ip> \n\n    <server_data_port>9000</server_data_port> \n\n</server_info>\n\n<server_info>\n\n    <server_name>Server2</server_name> \n\n    <ser"..., 8192) = 362
read(3, "", 7830)                       = 0
getcwd("/tmp", 1024)                    = 5
close(3)                                = 0
exit_group(0)                           = ?
+++ exited with 0 +++

虽然这是一个稍微新的libxml2和gcc的Fedora,但这种差异并不重要。这里的答案是,这里显示的代码没有任何问题。我认为没有错。

但它显然是更大的应用程序的一部分,并且您的内存损坏正在应用程序的其他部分发生,并且只有在应用程序的执行到达此部分时才会显示。

关于C ++的问题在于,仅仅因为代码在特定点崩溃,并不意味着这段代码就是问题所在。提出一个简单的例子应该不难:

#include <iostream>
#include <cstring>

int main()
{

    char foo[3];

    strcpy(foo, "FoobarbazXXXXXXXXXXXXXXXXXXXXXX");

    for (int i=0; i<100; i++)
        std::cout << i << std::endl;
    return 0;
}

此处的错误显然发生在strcpy行。但是代码运行得很好,从0到99打印100个数字,并在main()返回时崩溃。但是,显然,“返回0”并不是错误所在的位置。

这类似于您的应用程序所发生的情况。某些内存损坏会在某些时候发生,在代码尝试解析XML文件之前,这不会对代码执行产生实质性影响。

欢迎使用C ++。

答案 1 :(得分:0)

问题是我们在代码中使用了#pragma pack(1), 这意味着DOMParser中的bool被打包为1个字节,而Xerces没有#pragma pack并获得4个字节的默认打包。