我正在尝试在Python Spark中定义一个函数,它可以告诉我哪些列被视为数字(连续),哪些列应被视为分类列。在执行此操作时,我正在访问数据框的dtypes
并迭代每个变量以检查其是continuous_types
或categorical_types
的成员(在下面定义)。 continuous_types
和categorical_types
是列表,这些是他们的条目 -
continuous_types = ('double', 'bigint')
categorical_types = ('string')
我认为还有更多字符串/ dtypes
应该是这两个列表的一部分,尤其是continuous_types
。我通过创建和读取数据集并检查它们的dtypes
得到了这些dtypes
。这三个是详尽无遗的吗?
我查了this link但我无法获得所需的信息。
简而言之,当我访问spark数据帧的dtypes
属性时,我可以期待的值的详尽列表是什么