如何解决“在位置2不再重复”

时间:2019-08-19 05:43:53

标签: python regex stemming lemmatization

我正在尝试在数据帧的tex中提取单词

data是一个数据框,karma是文本列,zargan是单词的字典和单词的根

for a in range(1,100000):
    for j in data.KARMA[a].split():
        pattern = r'\b'+j+r'\b' 
        data.KARMA[a] = re.sub(pattern, str(zargan.get(j,j)),data.KARMA[a]) 
print(data.KARMA[1])

我想更改文本中的单词和词根

1 个答案:

答案 0 :(得分:0)

看起来像j包含一些正则表达式特殊字符,例如*。如果您希望将其解释为文字文本,可以说

    pattern = r'\b'+re.escape(j)+r'\b'

,如果应该类似地将其r强制转换为文字字符串,则可能也是如此。