如何使用熊猫删除数字和数字后面的所有内容?基本上所有带有数字的单词都是单独的单词,然后删除单独单词后面的所有内容。
例如:
ABC,2 QUEEN = ABC
ABC 3 QUEEN = ABC
ABC PTE LTD YES123 = ABC PTE LTD YES123
ABC PTE LTD YES 123 = ABC PTE LTD
答案 0 :(得分:0)
尝试一下:
new_text
答案 1 :(得分:0)
我不认为pandas是完成该任务的最佳方法,您可以使用ntlk标记化来将行按每个单词分开,然后遍历标记化的单词,将这些单词保留在单独的数组中,直到遇到一个数字,在这种情况下,您可以使用“ break”语句并移至下一行
答案 2 :(得分:0)
这很粗糙,但是请尝试
df['MyCol'].str.split('[ |,][0-9]+')
缺点是您将必须提取返回列表的索引0以覆盖原始列。或者,设置参数 Expand = True 并删除所有生成的连续列。
df['MyCol'].str.split('[ |,][0-9]+', expand=True)
输出:
0 [ABC, QUEEN]
1 [ABC, QUEEN]
2 [ABC PTE LTD YES123]
3 [ABC PTE LTD YES, ]