是否有一种有效的方法可以将语料库中的所有单词变体(使用您不熟悉的语言)转换为根源?
例如,在英语中,这意味着将plays
,played
和playing
转换为play
; did
,does
,done
和doing
加入do
; birds
bird
; Alter table emp add lastname varchar(10) AFTER firstname;
等等。
我的想法是迭代不太频繁的单词并测试这个单词的子串是否是更频繁的单词之一。我不认为这是好的,因为,首先,它不会影响不规则动词,其次,我不确定它总是" root"这个词比其他变种更频繁。这种方法也可能会错误地改变一些与其中包含的常用词完全不同的词。
我想这样做的原因是我正在处理分类问题,并且如果我在预处理步骤中工作得更好,我会得到更好的结果。如果您已做过类似或有想法的事情,请分享。
谢谢!