是否有一个好的python库,专门包含某种常见的英语“扔掉单词”的字典,例如“ um”,“ uh”,我可以用它们来清理NLP文本?
同样,我的同事开始列出making语/ off语单词列表。我希望可以找到所有这些的python库。他下面的js代码确实可以将“ nope”和“ naw”变成“ no”
txt = txt.replace(
/\b(yeah|ya|yep|yup|yes)\b/g, "yes"
).replace(
/\b(no|naw|nope)\b/g, "no"
).replace(
/\b([ah]+|uh-huh|uh+|um+|mhm+|huh+|oh)\b/g, ""
).replace(
/\b(im|i'm|i am)\b/g, "im"
).replace(
/\b(gotta|gonna|got to|going to|wanna|want to)\b/g, "yyxxa"
).replace(
/\b(ok|okay|k)\b/g, "okay"
);