Question

我在使用pandas将数据导入数据框后正在处理.xls文件，需要修剪它们。我有很多专栏。每个数据从xxx：或yyy开始：并在一列中例如：

xxx：abc yyy：def \ n
xxx：def yyy：ghi \ n
xxx：ghi yyy：jkl \ n
...

我需要修剪xxx：和yyy：对于每一列。研究并尝试解决了一些问题，但它们并没有奏效。我该如何修剪它，我需要一个有效的代码。已经感谢了。

（不必要的角色没有静态长度我只知道它们看起来像停止词。例如：

[＆＃39; Comp：Apple＆＃39;，＆＃39;产品：iPhone＆＃39;，＆＃39;年份：2018＆＃39;，＆＃39; 128GB＆＃39;，...]
[＆＃39; Comp：Samsung＆＃39;，＆＃39;产品：Note＆＃39;，＆＃39;年份：2017＆＃39;，＆＃39; 64GB＆＃39;，...]

我想要新的数据集看起来像：

[＆＃39; Apple＆＃39;，＆＃39; iPhone＆＃39;，＆＃39; 2018＆＃39;，＆＃39; 128GB＆＃39;，...]
[＆＃39; Samsung＆＃39;，＆＃39; Note＆＃39;，＆＃39; 2017＆＃39;，＆＃39; 64GB＆＃39;，...]

所以我想修剪（＆＃39; Comp：＆＃39;，＆＃39;产品：＆＃39;，＆＃39;年：＆＃39;，...）每个停用词列。

Answer 1

您可以使用pd.Series.str.split：

import pandas as pd

df = pd.DataFrame([['Comp:Apple', 'Product:iPhone', 'Year:2018', '128GB'],
                   ['Comp:Samsung', 'Product:Note', 'Year:2017', '64GB']],
                  columns=['Comp', 'Product', 'Year', 'Memory'])

for col in ['Comp', 'Product', 'Year']:
    df[col] = df[col].str.split(':').str.get(1)

#       Comp Product  Year Memory
# 0    Apple  iPhone  2018  128GB
# 1  Samsung    Note  2017   64GB

修剪pandas

1 个答案: