Question

如何使用熊猫删除数字和数字后面的所有内容？基本上所有带有数字的单词都是单独的单词，然后删除单独单词后面的所有内容。

例如：

ABC,2 QUEEN = ABC

ABC 3 QUEEN = ABC

ABC PTE LTD YES123 = ABC PTE LTD YES123

ABC PTE LTD YES 123 = ABC PTE LTD

Answer 1

尝试一下：

new_text

Answer 2

我不认为pandas是完成该任务的最佳方法，您可以使用ntlk标记化来将行按每个单词分开，然后遍历标记化的单词，将这些单词保留在单独的数组中，直到遇到一个数字，在这种情况下，您可以使用“ break”语句并移至下一行

Answer 3

这很粗糙，但是请尝试

df['MyCol'].str.split('[ |,][0-9]+')

缺点是您将必须提取返回列表的索引0以覆盖原始列。或者，设置参数 Expand = True 并删除所有生成的连续列。

df['MyCol'].str.split('[ |,][0-9]+', expand=True)

输出：

0           [ABC,  QUEEN]

1           [ABC,  QUEEN]

2    [ABC PTE LTD YES123]

3     [ABC PTE LTD YES, ]