Question

我在python中使用包dfply，它模仿R中的包dplyr。这是我试图运行的简单代码。我之前在我的环境中加载了此数据集“数据”，我只想对该变量进行分组。

    import dfply as dp
    data['CO_SPORTELLO']=data['CO_SPORTELLO'].apply(lambda x: str(x))
    data=(data >> 
          dp.group_by(X.CO_SPORTELLO))

我保持的错误是：NameError: name 'X' is not defined。

从包文档中：

通过管道操作传递的DataFrame是由符号X表示。它记录您想要采取的行动（由Intention类表示），但直到没有评估它们适当的时间。 DataFrame上的操作被推迟。例如，选择其中两列可以使用管道操作期间的符号X DataFrame。

diamonds >> select(X.carat, X.cut) >> head(3)

   carat      cut
0   0.23    Ideal
1   0.21  Premium
2   0.23     Good

Answer 1

你需要from dfply import *;应该定义X。

或者在代码中将X替换为dp.X。

Answer 2

无需使用“ dp.group_by”，仅使用“ group_by”即可。

dfply - Python - X名称未定义

2 个答案: