包含c字符串的cython类;缓冲区溢出?

时间:2019-03-24 22:16:14

标签: python cython c-strings

尝试学习一些Cython,我一直在尝试编写一个仅包含几个cstring(对应于因子/分类数据类型的可用选择)的玩具库。类中指向的字符串被覆盖,我的C / Cython-foo太小了,无法找出原因。

结果是这样的:

>>> import coupla
>>> ff = coupla.CouplaStrings(["one", "two"])
>>> ff
write, two
>>> ff
, two
>>> ff
two, two

非常感谢您的帮助!我觉得我快疯了。仅仅使用to_cstring_arrayto_str_list函数似乎可以正常工作,但在该类中它会被计算。

cdef extern from "Python.h":
    char* PyUnicode_AsUTF8(object unicode)

from libc.stdlib cimport malloc, free

cdef char **to_cstring_array(list_str):
    """Stolen from Stackoverflow:
    https://stackoverflow.com/questions/17511309/fast-string-array-cython/17511714#17511714
    """
    cdef Py_ssize_t num_strs = len(list_str)
    cdef char **ret = <char **>malloc(num_strs * sizeof(char *))

    for i in range(num_strs):
        ret[i] = PyUnicode_AsUTF8(list_str[i])

    return ret

cdef to_str_list(char **cstr_array, Py_ssize_t size):
    cdef int i
    result = []

    for i in range(size):
        result.append(bytes(cstr_array[i]).decode("utf-8"))

    return result

cdef class CouplaStrings:
    cdef char **_strings
    cdef Py_ssize_t _num_strings

    def __init__(self, strings):
        cdef Py_ssize_t num_strings = len(strings)
        cdef char **tstrings = <char **> to_cstring_array(strings)

        self._num_strings = num_strings
        self._strings = tstrings

    def __repr__(self):
        """Just for testing."""
        return ", ".join(to_str_list(self._strings, self._num_strings))

    def __dealloc__(self):
        free(self._strings)

编辑:

请参阅下面的user2357112答案。 CouplaStrings的编辑版本似乎可以避免该特定问题,尽管我不会保证其总体正确性。

编辑2:这仅是出于历史目的是错误的

cdef class CouplaStrings:
    cdef char **_strings
    cdef Py_ssize_t _num_strings

    def __init__(self, strings):
        cdef Py_ssize_t num_strings = len(strings)

        cdef char **ret = <char **> PyMem_Malloc(num_strings * sizeof(char *))

        for i in range(num_strings):
            ret[i] = <char *> PyMem_Realloc(PyUnicode_AsUTF8(strings[i]),
                                            sizeof(char *))

        self._num_strings = num_strings
        self._strings = ret

    def __repr__(self):
        """Just for testing."""
        return ", ".join(to_str_list(self._strings, self._num_strings))

    def __dealloc__(self):
        PyMem_Free(self._strings)

1 个答案:

答案 0 :(得分:1)

您没有考虑所有权和内存管理。

PyUnicode_AsUTF8返回的UTF-8编码由调用字符串对象PyUnicode_AsUTF8拥有,并且在该字符串死亡时被回收。为了防止字符串对象先于对象死亡,您的对象需要保留(Python)对字符串对象的引用。另外,您可以将UTF-8编码复制到自己分配的内存中,并负责自己释放该内存。

否则,您将只有一个悬空指针数组。