如果Pandas系列中的字符串在列表中包含单词,则替换字符串的最快方法

时间:2019-05-01 09:59:30

标签: python pandas list replace

我有一个大型数据集all_transcripts,其中包含近300万行。 msgText列之一包含书面消息。

>>> all_transcripts['msgText']

['this is my first message']
['second message is here']
['this is my third message']

此外,我有一个包含200多个单词的列表,称为gemeentes

>>> gemeentes
['first','second','third' ... ]

如果msgText中包含此列表中的一个单词,我想用另一个单词替换它。为此,我创建了函数:

def replaceCity(text):
    newText = text.replace(plaatsnaam, 'woonplaats')
    return str(newText)

所以,我想要的输出看起来像:

['this is my woonplaats message']
['woonplaats message is here']
['this is my woonplaats message']

目前,我正在遍历列表,并对列表中的每个项目都应用replaceCity函数。

for plaatsnaam in gemeentes:
    global(plaatsnaam)
    all_transcripts['filtered_text'] = test.msgText.apply(replaceCity)

但是,这需要很长时间,因此似乎效率不高。有没有更快的方法来执行此任务?


此帖子(Algorithm to find multiple string matches)很相似,但是我的问题有所不同,因为:

  • 这里只有一小段文字,而我有一个 具有许多不同行的数据集

  • 我想替换单词,而不只是查找单词。

1 个答案:

答案 0 :(得分:1)

假设all_transcripts是熊猫DataFrame

all_transcripts['msgText'].str.replace('|'.join(gemeentes),'woonplaats')

示例:

all_transcripts = pd.DataFrame([['this is my first message'],
                                ['second message is here'],
                                ['this is my third message']],
                               columns=['msgText'])
gemeentes = ['first','second','third']

all_transcripts['msgText'].str.replace('|'.join(gemeentes),'woonplaats')

输出

0    this is my woonplaats message
1       woonplaats message is here
2    this is my woonplaats message