Python Pandas-删除尾随数字和字符串中的剩余单词

时间:2018-07-13 04:31:03

标签: python string pandas

如何使用熊猫删除数字和数字后面的所有内容?基本上所有带有数字的单词都是单独的单词,然后删除单独单词后面的所有内容。

例如:

ABC,2 QUEEN = ABC

ABC 3 QUEEN = ABC

ABC PTE LTD YES123 = ABC PTE LTD YES123

ABC PTE LTD YES 123 = ABC PTE LTD

3 个答案:

答案 0 :(得分:0)

尝试一下:

new_text

答案 1 :(得分:0)

我不认为pandas是完成该任务的最佳方法,您可以使用ntlk标记化来将行按每个单词分开,然后遍历标记化的单词,将这些单词保留在单独的数组中,直到遇到一个数字,在这种情况下,您可以使用“ break”语句并移至下一行

答案 2 :(得分:0)

这很粗糙,但是请尝试

df['MyCol'].str.split('[ |,][0-9]+')

缺点是您将必须提取返回列表的索引0以覆盖原始列。或者,设置参数 Expand = True 并删除所有生成的连续列。

df['MyCol'].str.split('[ |,][0-9]+', expand=True)

输出:

0           [ABC,  QUEEN]

1           [ABC,  QUEEN]

2    [ABC PTE LTD YES123]

3     [ABC PTE LTD YES, ]