我在python中使用包dfply
,它模仿R中的包dplyr
。
这是我试图运行的简单代码。我之前在我的环境中加载了此数据集“数据”,我只想对该变量进行分组。
import dfply as dp
data['CO_SPORTELLO']=data['CO_SPORTELLO'].apply(lambda x: str(x))
data=(data >>
dp.group_by(X.CO_SPORTELLO))
我保持的错误是:NameError: name 'X' is not defined
。
从包文档中:
通过管道操作传递的DataFrame是 由符号X表示。它记录您想要采取的行动 (由Intention类表示),但直到没有评估它们 适当的时间。 DataFrame上的操作被推迟。 例如,选择其中两列可以使用 管道操作期间的符号X DataFrame。
diamonds >> select(X.carat, X.cut) >> head(3)
carat cut
0 0.23 Ideal
1 0.21 Premium
2 0.23 Good
答案 0 :(得分:1)
你需要from dfply import *
;应该定义X
。
或者在代码中将X
替换为dp.X
。
答案 1 :(得分:0)
无需使用“ dp.group_by”,仅使用“ group_by”即可。