修剪pandas

时间:2018-03-16 23:03:43

标签: python pandas text-mining strip

我在使用pandas将数据导入数据框后正在处理.xls文件,需要修剪它们。我有很多专栏。每个数据从xxx:或yyy开始:并在一列中 例如:

  1. xxx:abc yyy:def \ n
  2. xxx:def yyy:ghi \ n
  3. xxx:ghi yyy:jkl \ n
  4. ...
  5. 我需要修剪xxx:和yyy:对于每一列。研究并尝试解决了一些问题,但它们并没有奏效。我该如何修剪它,我需要一个有效的代码。已经感谢了。

    (不必要的角色没有静态长度我只知道它们看起来像停止词。例如:

    1. [' Comp:Apple','产品:iPhone','年份:2018',' 128GB',...]
    2. [' Comp:Samsung','产品:Note','年份:2017',' 64GB',...]
    3. 我想要新的数据集看起来像:

      1. [' Apple',' iPhone',' 2018',' 128GB',...]
      2. [' Samsung',' Note',' 2017',' 64GB',...]
      3. 所以我想修剪(' Comp:','产品:','年:',...)每个停用词列。

1 个答案:

答案 0 :(得分:1)

您可以使用pd.Series.str.split

import pandas as pd

df = pd.DataFrame([['Comp:Apple', 'Product:iPhone', 'Year:2018', '128GB'],
                   ['Comp:Samsung', 'Product:Note', 'Year:2017', '64GB']],
                  columns=['Comp', 'Product', 'Year', 'Memory'])

for col in ['Comp', 'Product', 'Year']:
    df[col] = df[col].str.split(':').str.get(1)

#       Comp Product  Year Memory
# 0    Apple  iPhone  2018  128GB
# 1  Samsung    Note  2017   64GB