Python比较两个字符串并确定'唯一性'

时间:2016-02-05 19:32:19

标签: python regex string dictionary

当我更详细地解释我的问题时(或者说,它是一组半相关的问题),标题是一团糟,所以请耐心等待。我正在编译一个大文本文件中某些单词的列表,并将它们作为键存储在字典中,并将它们各自的出现次数(整数)作为值。我想应用几个流程来整合字典,以便相关'单词混在一起。

第一次操作是复数。我认为没有理由拥有一只“猫”。和一只猫#39;在字典中键入。与汽车与汽车,书籍与书籍等相同。我想编写一个函数(在看到当前不在字典中的新单词时)检查新单词是否是当前在dict中的任何键的复数形式(反之亦然)。

if new_word ends with s -> check dict for a key that matches new_word[:-1]
else if new_word does not end in s -> check dict for new_word + 's'

有没有更好的方法来解决这个问题? (我显然必须处理复数的边缘情况......此时这是非常普遍的)

在同一主题上,如果我想通过查询已知后缀和前缀的数据库并查看new_word是否只是之前看到的带有后缀或前缀的单词来确定单词是否相似,该怎么办?

我使用nltk来处理我的程序中的许多其他任务,例如分成句子和单词,但我更愿意写出类似的东西'算法我自己。提前感谢您的帮助!

0 个答案:

没有答案