将两个熊猫数据帧与modin.pandas合并给出ValueError

时间:2019-11-18 12:10:01

标签: pandas dataframe merge modin

为了使我的熊猫代码更快,我安装了modin并尝试使用它。以前起作用的两个数据帧的合并给了我以下错误:

ValueError: can not merge DataFrame with instance of type <class 'pandas.core.frame.DataFrame'>

以下是两个数据帧的信息:

printing event_df.info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1980101 entries, 0 to 1980100
Data columns (total 5 columns):
other_id     object
id             object
category       object
description    object
date           datetime64[ns]
dtypes: datetime64[ns](1), object(4)
memory usage: 75.5+ MB
printing other_df info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 752438 entries, 0 to 752437
Data columns (total 4 columns):
id            752438 non-null object
other_id    752438 non-null object
Value     752438 non-null object
Unit      752438 non-null object
dtypes: object(4)
memory usage: 23.0+ MB

以下是event_df中的一些行:

other_id            id     category      description        date
08E5A97350FC8B00092F 1  some_string      some_string     2019-04-09 
17B71019E148415D     4  some_string      some_string      2019-11-08 
17B71019E148415D360  7  some_string      some_string      2019-11-08 

这是other_df中的3行:

id                             other_id           Value      Unit
a01  BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283         3  some_string
a02  BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283         3  some_string
a03  BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283         3  some_string

我尝试安装此问题Join two modin.pandas.DataFrame(s)中引用的版本,但没有帮助。

以下是引发错误的代码行:

joint_dataframe2 = pd.merge(event_df,other_df, on = ["id","other_id"])

似乎modin的合并功能存在一些问题。是否有任何变通办法,例如使用pandas进行合并以及将modin用作groupby.transform()?在与import modin.pandas合并后,我尝试覆盖pandas导入,但是出现错误,指出在分配之前已引用pandas。有没有人遇到过这个问题,如果有,有解决方案吗?

1 个答案:

答案 0 :(得分:1)

您的错误读取就像您将modin.pandas.dataframe.DataFrame的实例与pandas.core.frame.DataFrame的实例合并一样。

如果确实如此,您可以先将pandas数据框转换为modin数据框,然后相信我应该可以将它们合并。