如何在大熊猫中将col作为给定的char长度进行sep?

时间:2017-06-01 14:52:15

标签: pandas

如何按如下方式分隔数据框:

   yr   mon  day      Tmax  Tmin   pcp
  2013   4  22        5.09-10.92   0.0                         
  2013   4  23        2.77 -9.63   0.5                         
  2013   4  24        0.28 -9.90   9.9                         
  2013   4  25        0.76 -6.70  12.2                         
  2013   4  26       -0.35 -9.48   0.0                         
  2013   4  27        7.22-10.47   0.0                         
  2013   4  28        4.19-10.78   0.0  

你知道:原则上Tmax和Tmin之间没有空格。 Tmax和Tmin的最大宽度为6个char空间。如果少于6个空格,则用空格填充。我想把它读到df并分开每一列 将列分隔为给定的char长度?

2 个答案:

答案 0 :(得分:2)

试试这个:

df = pd.read_fwf(filename)

答案 1 :(得分:1)

您似乎需要str.extract floatsints,如果所有数据都在iloc选中的一列中,则解决方案有效:

pat="(\d+)\s*(\d+)\s*(\d+)\s*([-+]?\d+\.\d+|\d+)\s*([-+]?\d+\.\d+|\d+)\s*([-+]?\d+\.\d+|\d+)"
df1 = df.iloc[:, 0].str.extract(pat, expand=True)
df1.columns = ['year', 'mont','day','Tmax','Tmin','pcp']
print (df1)
   year mont day   Tmax    Tmin   pcp
0  2013    4  22   5.09  -10.92   0.0
1  2013    4  23   2.77   -9.63   0.5
2  2013    4  24   0.28   -9.90   9.9
3  2013    4  25   0.76   -6.70  12.2
4  2013    4  26  -0.35   -9.48   0.0
5  2013    4  27   7.22  -10.47   0.0
6  2013    4  28   4.19  -10.78   0.0

另一种解决方案是使用read_fwf并指定colspecs

import pandas as pd
from pandas.compat import StringIO

temp=u"""yr  mon  day       Tmax  Tmin   pcp
  2013   4  22        5.09-10.92   0.0                         
  2013   4  23        2.77 -9.63   0.5                         
  2013   4  24        0.28 -9.90   9.9                         
  2013   4  25        0.76 -6.70  12.2                         
  2013   4  26       -0.35 -9.48   0.0                         
  2013   4  27        7.22-10.47   0.0                         
  2013   4  28        4.19-10.78   0.0  """
#after testing replace 'StringIO(temp)' to 'filename.csv'

names=['year', 'mont','day','Tmax','Tmin','pcp']
colspecs = [(0, 6), (9, 10), (12, 14), (21, 26),(26,32),(34,38)]
df = pd.read_fwf(StringIO(temp),colspecs=colspecs, names=names, header=0)
print (df)
   year  mont  day  Tmax   Tmin   pcp
0  2013     4   22  5.09 -10.92   0.0
1  2013     4   23  2.77  -9.63   0.5
2  2013     4   24  0.28  -9.90   9.9
3  2013     4   25  0.76  -6.70  12.2
4  2013     4   26 -0.35  -9.48   0.0
5  2013     4   27  7.22 -10.47   0.0
6  2013     4   28  4.19 -10.78   0.0