KDD Cup 2009:将扩展名为“ .data”的数据集解析并转换为.csv吗?

时间:2018-09-23 22:58:02

标签: python pandas csv parsing crm

我正在尝试通过python / pandas将“ .data”数据集解析为230个单独的变量,分别转换为df和.csv导出。

数据似乎是表格化的,但还有其他一些细微差别。这是有关KDD格式的说明:

  

KDD Cup 2009的数据格式说明

     

数据集使用的格式与关系数据库中文本导出格式的格式类似:

     
    
        
  1. 一个带有变量名称的标题行
  2.     
  3. 每个实例一行
  4.     
  5. 值之间的分隔符列表
  6.     
  7. 缺少值(连续列表)
  8.     
  
     

较大的矩阵是通过将按顺序编号下载的各个块附加到其后得到的。标头行仅出现在第一个块中。

     

目标值(.labels文件)每行有一个示例,其顺序与相应的数据文件相同。请注意,流失,能力和向上销售是三个单独的二进制分类问题。目标值为+1或-1。我们将具有+1(分别为-1)目标值的示例称为正(分别为负)示例。

     

Matlab矩阵是数字。加载后,数据矩阵称为X。分类变量映射为整数。对于原始数字变量,缺失值将被NaN替换,对于分类变量,它们将映射为0。

以下是在文本编辑器中打开代码时的代码片段:

Var1    Var2    Var3    Var4    Var5    Var6    Var7    Var8    Var9    Var10   Var11   Var12   Var13   Var14   Var15   Var16   Var17   Var18   Var19   Var20   Var21   Var22   Var23   Var24   Var25   Var26   Var27   Var28   Var29   Var30   Var31   Var32   Var33   Var34   Var35   Var36   Var37   Var38   Var39   Var40   Var41   Var42   Var43   Var44   Var45   Var46   Var47   Var48   Var49   Var50   Var51   Var52   Var53   Var54   Var55   Var56   Var57   Var58   Var59   Var60   Var61   Var62   Var63   Var64   Var65   Var66   Var67   Var68   Var69   Var70   Var71   Var72   Var73   Var74   Var75   Var76   Var77   Var78   Var79   Var80   Var81   Var82   Var83   Var84   Var85   Var86   Var87   Var88   Var89   Var90   Var91   Var92   Var93   Var94   Var95   Var96   Var97   Var98   Var99   Var100  Var101  Var102  Var103  Var104  Var105  Var106  Var107  Var108  Var109  Var110  Var111  Var112  Var113  Var114  Var115  Var116  Var117  Var118  Var119  Var120  Var121  Var122  Var123  Var124  Var125  Var126  Var127  Var128  Var129  Var130  Var131  Var132  Var133  Var134  Var135  Var136  Var137  Var138  Var139  Var140  Var141  Var142  Var143  Var144  Var145  Var146  Var147  Var148  Var149  Var150  Var151  Var152  Var153  Var154  Var155  Var156  Var157  Var158  Var159  Var160  Var161  Var162  Var163  Var164  Var165  Var166  Var167  Var168  Var169  Var170  Var171  Var172  Var173  Var174  Var175  Var176  Var177  Var178  Var179  Var180  Var181  Var182  Var183  Var184  Var185  Var186  Var187  Var188  Var189  Var190  Var191  Var192  Var193  Var194  Var195  Var196  Var197  Var198  Var199  Var200  Var201  Var202  Var203  Var204  Var205  Var206  Var207  Var208  Var209  Var210  Var211  Var212  Var213  Var214  Var215  Var216  Var217  Var218  Var219  Var220  Var221  Var222  Var223  Var224  Var225  Var226  Var227  Var228  Var229  Var230
                1225    7                       100                             156 195     0   72          166.56                          0           4259232                     0                                                   2.565264                                9                               106 7       959480      0           70399.2     15      10                                                                                              32          40  383386.4                        620             54      20646                           0   756720  1123876                     1915            0   9                   0               8335680                         16          1689774                                     0                               0                                           xddq9ayfAo  RO12        taul    1K8T    PShj    iJzviRg 17VONbZnAuZ90atz    MF5EBmj     WVvO    9_Y1    vm5R    VpdQ    haYg    7M47J5GA0pTYIFxg5uy kIsH        uKAI    L84s    H4p93_uThXwSG       XREFJCi     7WwzJJY OgPm    cJvF    FzaX    ch2oGfM Al6ZaUT P6pu4Vl LM8l689qOp

我发现此StackOverflow post对于如何利用熊猫转换文件类型很有帮助,但是文本解析逻辑完全不同。

任何有关如何解决此问题的支持都将非常有帮助,因为我希望使用此数据集来学习如何将预测性学习应用于CRM数据集。

谢谢!

1 个答案:

答案 0 :(得分:0)

为比赛提供的数据为.data文件格式。检查数据后,您可以看到数据由tab分隔。这样我们就可以直接使用熊猫来读取文件了。

import pandas as pd
temp = pd.read_csv('orange_small_train.data', sep='\t')  

这将解决问题。