我试图在两个句子之间找到一些相似性度量。我利用两个单词的个别语义相似性。但是字典里有很多单词我用我的句子做的。我想从句子中删除一些我认为无法传达有关内容信息的词语。首先,我删除了字母较少的单词,但我不认为它是可重复的,因为它也删除了一些信息性的单词。
看看这里的一些句子的部分
"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
如果我有一个涉及这些单词的文本文件,我会将它们从我的字典中删除,只留下信息性的单词。
您是否有任何英语单词列表,以便我可以用来过滤我的词典?
答案 0 :(得分:2)
解决此类问题的一种方法是删除分布的头部和尾部。非常常见的单词(即停用词)几乎不添加关于相似性的信息。相反,非常罕见的词语往往是错别字。您必须小心唯一性的阈值,它将取决于您的语料库的来源和异质性:用户生成的输入往往包含比来自维基百科等策展源的内容更多的独特拼写错误。
答案 1 :(得分:1)
有常见的“停用词”列表,例如here。
停止词语也可能在某种程度上依赖于域名。例如,US Patent Full Text Database显然认为“主张”和“实施例”非常普遍,我怀疑非特定专利文件是正确的。