我正在尝试在数据帧的tex中提取单词
data是一个数据框,karma是文本列,zargan是单词的字典和单词的根
for a in range(1,100000):
for j in data.KARMA[a].split():
pattern = r'\b'+j+r'\b'
data.KARMA[a] = re.sub(pattern, str(zargan.get(j,j)),data.KARMA[a])
print(data.KARMA[1])
我想更改文本中的单词和词根
答案 0 :(得分:0)
看起来像j
包含一些正则表达式特殊字符,例如*
。如果您希望将其解释为文字文本,可以说
pattern = r'\b'+re.escape(j)+r'\b'
,如果应该类似地将其r
强制转换为文字字符串,则可能也是如此。