Question

我正在尝试为Twitter文本分类训练SVM。显然，相对于NLP更常见的正式文档，推文往往包含许多俚语或拼写错误的单词。这是我试图分类的推文的一个例子：

Word I'm bout to holla at her via twitter RT @iamJay_Fresh : #trushit - im tryna fucc nicki minaj lol

我想知道是否有可能对这段文字进行词干/词形化，以便纠正俚语，它看起来像这样：

Word I'm about to holler at her via Twitter RT @iamJay_Fresh : #trushit - I'm trying to fuck Nicki Minaj lol

注意：我并不太关心将“lol”这样的常用首字母缩略词扩展为“大笑”。我想引理的原因是为了减少数据稀疏性：如果SVM在负面情况下多次看到“holler”，但由于人们使用它少了几次“holla”，它将受益于使用“holler”的内涵“用”holla“对推文进行分类。 OTOH“lol”通常用于正面推文中，因此如果SVM看到另一个“lol”，即使它不是正式的英语，它也会知道它的极性。

Python中俚语的词形简化

0 个答案: