为了使我的熊猫代码更快,我安装了modin并尝试使用它。以前起作用的两个数据帧的合并给了我以下错误:
ValueError: can not merge DataFrame with instance of type <class 'pandas.core.frame.DataFrame'>
以下是两个数据帧的信息:
printing event_df.info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1980101 entries, 0 to 1980100
Data columns (total 5 columns):
other_id object
id object
category object
description object
date datetime64[ns]
dtypes: datetime64[ns](1), object(4)
memory usage: 75.5+ MB
printing other_df info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 752438 entries, 0 to 752437
Data columns (total 4 columns):
id 752438 non-null object
other_id 752438 non-null object
Value 752438 non-null object
Unit 752438 non-null object
dtypes: object(4)
memory usage: 23.0+ MB
以下是event_df中的一些行:
other_id id category description date
08E5A97350FC8B00092F 1 some_string some_string 2019-04-09
17B71019E148415D 4 some_string some_string 2019-11-08
17B71019E148415D360 7 some_string some_string 2019-11-08
这是other_df中的3行:
id other_id Value Unit
a01 BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283 3 some_string
a02 BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283 3 some_string
a03 BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283 3 some_string
我尝试安装此问题Join two modin.pandas.DataFrame(s)中引用的版本,但没有帮助。
以下是引发错误的代码行:
joint_dataframe2 = pd.merge(event_df,other_df, on = ["id","other_id"])
似乎modin的合并功能存在一些问题。是否有任何变通办法,例如使用pandas进行合并以及将modin用作groupby.transform()?在与import modin.pandas合并后,我尝试覆盖pandas导入,但是出现错误,指出在分配之前已引用pandas。有没有人遇到过这个问题,如果有,有解决方案吗?
答案 0 :(得分:1)
您的错误读取就像您将modin.pandas.dataframe.DataFrame
的实例与pandas.core.frame.DataFrame
的实例合并一样。
如果确实如此,您可以先将pandas数据框转换为modin数据框,然后相信我应该可以将它们合并。