使用共享库的分段错误

时间:2009-07-24 15:48:58

标签: c++ memory-management shared-libraries segmentation-fault

我有一个共享库(即libXXX.so),其中包含一个cpp / h文件。 它们包含许多函数指针(指向.so函数入口点)和一个用于将此函数包装为所述类的方法的类。

即:.h文件:

typedef void* handle;
/* wrapper functions */
handle okUsbFrontPanel_Construct();
void okUsbFrontPanel_Destruct(handle hnd);

/* wrapper class */
class okCUsbFrontPanel
{
public:
  handle h;
public:
  okCUsbFrontPanel();
  ~okCUsbFrontPanel();
};

.cpp文件

/* class methods */
okCUsbFrontPanel::okCUsbFrontPanel()
  { h=okUsbFrontPanel_Construct(); }
okCUsbFrontPanel::~okCUsbFrontPanel()
  { okUsbFrontPanel_Destruct(h); }
/* function pointers */
typedef handle  (*OKUSBFRONTPANEL_CONSTRUCT_FN) (void);
typedef void    (*OKUSBFRONTPANEL_DESTRUCT_FN)  (handle);
OKUSBFRONTPANEL_CONSTRUCT_FN    _okUsbFrontPanel_Construct = NULL;
OKUSBFRONTPANEL_DESTRUCT_FN _okUsbFrontPanel_Destruct = NULL;
/* load lib function */
Bool LoadLib(char *libname){
  void *hLib = dlopen(libname, RTLD_NOW);
  if(hLib){
    _okUsbFrontPanel_Construct = ( OKUSBFRONTPANEL_CONSTRUCT_FN ) dlsym(hLib, "okUsbFrontPanel_Construct");
    _okUsbFrontPanel_Destruct = ( OKUSBFRONTPANEL_DESTRUCT_FN ) dlsym( hLib, "okUsbFrontPanel_Destruct" );
  }
}
/* construct function */
handle okUsbFrontPanel_Construct(){
  if (_okUsbFrontPanel_Construct){
    handle h = (*_okUsbFrontPanel_Construct)(); //calls function pointer
    return h;
  }
  return(NULL);
}

void okUsbFrontPanel_Destruct(handle hnd)
{
  if (_okUsbFrontPanel_Destruct)
    (*_okUsbFrontPanel_Destruct)(hnd);
}

然后我有另一个共享库(由我自己制作),它调用:

LoadLib("libXXX.so");
okCusbFrontPanel *device = new okCusbFrontPanel();

导致分段错误。 分段错误似乎发生在

handle h = (*_okUsbFrontPanel_Construct)();

但有一种奇怪的行为:一旦我到达

(*_okUsbFrontPanel_Construct)(); 

我得到了okUsbFrontPanel_Construct()的递归。

有没有人有任何想法?

编辑:这是通过gdb运行获得的回溯。

#0  0x007590b0 in _IO_new_do_write () from /lib/tls/libc.so.6
#1  0x00759bb8 in _IO_new_file_overflow () from /lib/tls/libc.so.6
#2  0x0075a83d in _IO_new_file_xsputn () from /lib/tls/libc.so.6
#3  0x00736db7 in vfprintf () from /lib/tls/libc.so.6
#4  0x0073ecd0 in printf () from /lib/tls/libc.so.6
#5  0x02cb68ca in okCUsbFrontPanel (this=0x9d0ae28) at okFrontPanelDLL.cpp:167
#6  0x03cac343 in okUsbFrontPanel_Construct () from /opt/atlas/tdaq/tdaq-02-00-00/installed/i686-slc4-gcc34-dbg/lib/libokFrontPanel.so
#7  0x02cb8f36 in okUsbFrontPanel_Construct () at okFrontPanelDLL.cpp:1107
#8  0x02cb68db in okCUsbFrontPanel (this=0x9d0ade8) at okFrontPanelDLL.cpp:169
#9  0x03cac343 in okUsbFrontPanel_Construct () from /opt/atlas/tdaq/tdaq-02-00-00/installed/i686-slc4-gcc34-dbg/lib/libokFrontPanel.so
#10 0x02cb8f36 in okUsbFrontPanel_Construct () at okFrontPanelDLL.cpp:1107
#11 0x02cb68db in okCUsbFrontPanel (this=0x9d0ada8) at okFrontPanelDLL.cpp:169
#12 0x03cac343 in okUsbFrontPanel_Construct () from /opt/atlas/tdaq/tdaq-02-00-00/installed/i686-slc4-gcc34-dbg/lib/libokFrontPanel.so
#13 0x02cb8f36 in okUsbFrontPanel_Construct () at okFrontPanelDLL.cpp:1107

依旧...... 恕我直言,因为一种堆栈溢出我得到了一个seg故障。有太多的递归调用,出现问题......

顺便说一句,我正在使用Scientific Linux 4发行版(基于RH4)。

EDIT2:

对于函数okUsbFrontPanel_Construct输出的libokFrontPanel.so的objdump:

00009316 <okUsbFrontPanel_Construct>:
9316:   55                      push   ebp  
9317:   89 e5                   mov    ebp,esp
9319:   56                      push   esi
931a:   53                      push   ebx
931b:   83 ec 30                sub    esp,0x30
931e:   e8 44 f4 ff ff          call   8767 <__i686.get_pc_thunk.bx>
9323:   81 c3 dd bd 00 00       add    ebx,0xbddd
9329:   c7 04 24 38 00 00 00    mov    DWORD PTR [esp],0x38
9330:   e8 93 ec ff ff          call   7fc8 <_Znwj@plt>
9335:   89 45 e4                mov    DWORD PTR [ebp-28],eax
9338:   8b 45 e4                mov    eax,DWORD PTR [ebp-28]
933b:   89 04 24                mov    DWORD PTR [esp],eax
933e:   e8 65 ed ff ff          call   80a8 <_ZN16okCUsbFrontPanelC1Ev@plt>
9343:   8b 45 e4                mov    eax,DWORD PTR [ebp-28]
9346:   89 45 f4                mov    DWORD PTR [ebp-12],eax
9349:   8b 45 f4                mov    eax,DWORD PTR [ebp-12]
934c:   89 45 e0                mov    DWORD PTR [ebp-32],eax
934f:   eb 1f                   jmp    9370 <okUsbFrontPanel_Construct+0x5a>
9351:   89 45 dc                mov    DWORD PTR [ebp-36],eax
9354:   8b 75 dc                mov    esi,DWORD PTR [ebp-36]
9357:   8b 45 e4                mov    eax,DWORD PTR [ebp-28]
935a:   89 04 24                mov    DWORD PTR [esp],eax
935d:   e8 d6 f2 ff ff          call   8638 <_ZdlPv@plt>
9362:   89 75 dc                mov    DWORD PTR [ebp-36],esi
9365:   8b 45 dc                mov    eax,DWORD PTR [ebp-36]
9368:   89 04 24                mov    DWORD PTR [esp],eax
936b:   e8 a8 f0 ff ff          call   8418 <_Unwind_Resume@plt>
9370:   8b 45 e0                mov    eax,DWORD PTR [ebp-32]
9373:   83 c4 30                add    esp,0x30
9376:   5b                      pop    ebx
9377:   5e                      pop    esi
9378:   5d                      pop    ebp
9379:   c3                      ret    
<9>在933e确实有一个对&lt; _ZN16okCUsbFrontPanelC1Ev @ plt&gt;的调用。这个调用是否与我的.cpp中的那个混淆了?

3 个答案:

答案 0 :(得分:7)

现在您已发布GDB输出,但您可以清楚地知道您的问题是什么。

您在libokFrontPanel.solibLoadLibrary.so中定义了相同的符号(因为缺少更好的名称 - 它是所以更容易解释它们是什么时候正确命名), 导致无限递归。

默认情况下,在UNIX上(与Windows不同)所有共享库(以及主可执行文件)中的所有全局符号都会进入单个“加载程序符号名称空间”。

除此之外,这意味着如果您在主可执行文件中定义malloc malloc将被所有共享库调用,包括libc (即使libc有自己的malloc定义)。

所以,这是正在发生的事情:在libLoadLibrary.so中你定义了okCUsbFrontPanel构造函数。我断言libokFrontPanel.so中还有一个确切符号的定义。 对此构造函数的所有调用(默认情况下)转到第一个定义(动态加载程序首次观察到的定义),即使libokFrontPanel.so的创建者不打算这样做。循环是(按照相同的顺序GDB打印它们 - 最里面的框架在顶部):

 #1 okCUsbFrontPanel () at okFrontPanelDLL.cpp:169
 #3 okUsbFrontPanel_Construct () from libokFrontPanel.so
 #2 okUsbFrontPanel_Construct () at okFrontPanelDLL.cpp:1107
 #1 okCUsbFrontPanel () at okFrontPanelDLL.cpp:169

#3对构造函数的调用旨在转到 okCUsbFrontPanel内的符号#4 - libokFrontPanel.so构造函数。相反,它转到了先前在libLoadLibrary.so中看到的定义:你“抢占”符号#4,从而形成了一个无限递归循环。

道德:不要在多个库中定义相同的符号,除非您了解运行时加载程序决定哪些符号引用绑定到哪些定义的规则。

编辑:回答问题的'EDIT2':
是的,_ZN16okCUsbFrontPanelC1EvokUsbFrontPanel_Construct的来电将转到okFrontPanelDLL.cpp内该方法的定义。 检查objdump -d okFrontPanelDLL.o

可能很有启发性

答案 1 :(得分:1)

与Norman Ramsey所说的相反,诊断段错误的首选工具是GDB,而不是valgrind
后者只适用于某些种类段错误(主要是与堆损坏有关;这似乎不是这种情况)。

我的水晶球说你的dlopen()失败了(如果/当发生这种情况,你应该打印dlerror()!),并且_okUsbFrontPanel_Construct仍然是NULL。在GDB中,您将能够立即判断猜测是否正确。

我的猜测与你“获得okUsbFrontPanel_Construct()递归”的说法相矛盾。但是如果你不看GDB,你怎么知道你得到这样的递归?

答案 2 :(得分:0)

诊断段错误的首选工具是valgrind。如果你误用指针或内存,valgrind会发现问题并在发生段错误之前给你一个堆栈跟踪。在FAQ上,valgrind声称只要你不调用dlclose()就可以处理共享库。

如果你之前从未使用过valgrind,我认为你会对它的简单和强大感到惊讶。您只需使用'valgrind'作为命令行的第一个单词,它就会发现您的内存错误。好东西! Vladislav Vyshemirsky的博客上有一个short example session