我正在尝试为Twitter文本分类训练SVM。显然,相对于NLP更常见的正式文档,推文往往包含许多俚语或拼写错误的单词。这是我试图分类的推文的一个例子:
Word I'm bout to holla at her via twitter RT @iamJay_Fresh : #trushit - im tryna fucc nicki minaj lol
我想知道是否有可能对这段文字进行词干/词形化,以便纠正俚语,它看起来像这样:
Word I'm about to holler at her via Twitter RT @iamJay_Fresh : #trushit - I'm trying to fuck Nicki Minaj lol
注意:我并不太关心将“lol”这样的常用首字母缩略词扩展为“大笑”。我想引理的原因是为了减少数据稀疏性:如果SVM在负面情况下多次看到“holler”,但由于人们使用它少了几次“holla”,它将受益于使用“holler”的内涵“用”holla“对推文进行分类。 OTOH“lol”通常用于正面推文中,因此如果SVM看到另一个“lol”,即使它不是正式的英语,它也会知道它的极性。