机器学习-具有Text数据类型的独立列

时间:2018-06-24 06:54:11

标签: python machine-learning

在我的数据集中,有一个独立的列称为“周期”。它具有以文本格式写的日期值。我不明白如何将其转换为数字。我正在使用多元线性回归和Python。列看起来像这样。关于这个的任何想法。


周期

6月10日至7月11日

6月20日至7月21日

6月17日至7月18日

1 个答案:

答案 0 :(得分:0)

  

关于此的任何想法

免责声明:由于您的问题范围广泛且在细节上含糊不清,答案仅旨在指出要研究的地方以及围绕它的一些一般术语。

这是分类数据的示例。简而言之,您可以使用它来做几件事情,下面给出一些想法:

  • 如果类别是固定的,并且您知道所有可能的值,则可以通过为它们分配增量(或新的随机数)来将它们转换为数值。
  • 如果您的类别事先未知,则可以将其转换为哈希类别。作为这种方法的一种变体,您可以仅对最常见的类别进行哈希处理,而摘要则可以将离群值减少为较小的哈希值,从而减少使用的类别总数。
  • 您可以根据预期的影响对它们进行分类,这只是一些想法:

    • 按月大块进行桶化:
    • 将四方块进行桶化
    • 在几周内进行批量化
  • 最后,您可以将其转换为更详细的表示形式, 像这样从中获得额外的价值(这只是一个例子):

    Cycle                   C_Start_Day  C_Start_Month  C_End_Day  C_End_Month  C_Num_Days
    10th June to 11th July  10           6              11         7            1
    20th June to 21st July  20           6              21         7            1
    17th June to 18th July  17           6              18         7            1
    

注意:根据您之前的评论,我建议您使用最后一种方法(转换)。这样,您就可以从Cycle列中提取进行进一步数值处理所需的所有数据。