我希望通过pandas_dedupe的dedupe_dataframe函数运行自动数据清理脚本,但是遇到了两个问题。
该函数将所有内容自动格式化为字符串,除非将其指定为另一种数据类型。既然上传的数据集中会存在不同的列标题,是否可以仅传递已分配的pandas dataframe数据类型?
我可以防止该功能自动规范化字段吗?我已经有一种方法来做到这一点,该方法不会复制列,并且希望避免在事实发生后再删除这些列。
我已经阅读了尽可能多的pandas_dedupe信息(这是一个更新的软件包,其关注者较少,所以我希望能打到这里的少数几个!),但周围找不到任何东西这些问题。