PySpark:详尽的数据类型列表

时间:2018-05-23 07:54:33

标签: python apache-spark pyspark

我正在尝试在Python Spark中定义一个函数,它可以告诉我哪些列被视为数字(连续),哪些列应被视为分类列。在执行此操作时,我正在访问数据框的dtypes并迭代每个变量以检查其是continuous_typescategorical_types的成员(在下面定义)。 continuous_typescategorical_types是列表,这些是他们的条目 -

continuous_types = ('double', 'bigint')
categorical_types = ('string')

我认为还有更多字符串/ dtypes应该是这两个列表的一部分,尤其是continuous_types。我通过创建和读取数据集并检查它们的dtypes得到了这些dtypes。这三个是详尽无遗的吗?

我查了this link但我无法获得所需的信息。

简而言之,当我访问spark数据帧的dtypes属性时,我可以期待的值的详尽列表是什么

1 个答案:

答案 0 :(得分:0)

您可以在那里找到可用的类型: MVNRepository