记录链接上的重复数据删除OverflowError

时间:2018-05-15 12:47:29

标签: python python-3.x duplicates record-linkage python-dedupe

我想使用Dedupe库进行记录链接。我在Github上的Dedupe示例中编写了这段代码。但是当我运行我的代码时,我得到了这个错误:

  

OverflowError:Python int太大而无法转换为C ssize_t ##

因为我的数据非常大。我不能过滤我的data_d列? 它应该有所帮助。我搜索了所有stackoverflow问题,但我找不到正确的答案。

def readData(filename):
    """
    Read in our data from a CSV file and create a dictionary of records,
    where the key is a unique record ID.
    """

    data_d = {}

    with codecs.open(filename,encoding='utf-8') as f:

       reader = csv.DictReader(f)
       for i, row in enumerate(reader):
            clean_row = dict([(k, preProcess(v)) for (k, v) in row.items()])
            data_d[filename + str(i)] = dict(clean_row)

    return data_d

0 个答案:

没有答案