将重复数据删除结构化为数据库

时间:2017-07-15 12:54:06

标签: python python-dedupe

我正在使用python项目dedupe在我的数据中查找重复的组织名称。许多示例都侧重于如何处理数据,而不是如何实现结果。是否有获取结果,将其放入数据库以及查询是否重复记录的最佳实践?

到目前为止,我的想法是构建这样的两个表(使用sqlalchemy),但我觉得有点不对劲:

class Organization(Base):
    __tablename__ = 'organization'

    id = Column(Integer, primary_key=True)
    name = Column(String)
    cluster_id = Column(Integer, ForeignKey('duplicate_organization.cluster_id'))


class DuplicateOrganzation(Base):
    __tablename__ = 'duplicate_organization'

    id = Column(Integer, primary_key=True)
    cluster_id = Column(Integer)
    name = Column(String)
    organizations = relationship("Organization") 

0 个答案:

没有答案