我想从文本文件中删除缩略语,不一定是因为撇号,但是在我的情况下,我不需要这些类型的单词。
我知道您可以使用紧缩包将它们扩展为完整的单词,
import contractions
fixed_conts = contractions.fix(text)
但是,这不能删除它们。我知道我可以列出一个庞大的清单,然后用蛮力将其列出来,但我只是想知道是否还有更优雅的东西,例如任何包装建议
基本上,我想要的示例输出是:
不是这个
He isn't scrumming with us today - > He is not scrumming with us today
但是相反
He scrumming today
这是一个愚蠢的示例,但基本上是为了帮助查找唯一的单词,这是较大功能的一部分。
答案 0 :(得分:-1)
您可以创建一个包含所有收缩的列表,并创建一个新文本,该列表中没有任何单词
contractions = ["you're", "aren't", ...]
cleaned_up = [word for word in text if word not in contractions]
cleaned_up = " ".join(cleaned_up)